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1 Einleitung 


Vor nicht allzu langer Zeit war Web-Surfing die zentrale Metapher, die die 
Anwendung und Erfahrung des frühen Internets bezeichnete. Noch ohne 
Lotsen, aber mithilfe der Web-Browser Netscape Navigator und Microsoft 
Explorer, erschlossen sich abenteuerlustige Web-Surferinnen dieses neue 
Reich. Die Erfahrung des frühen Webs war geprägt von Vielheit, Überfluss, 
Irrwegen, zufälligen Entdeckungen und zielloser, aber doch manchmal zur 
Ankunft führenden, Navigation. Evgeny Morozov beschreibt diesen Moment 
der Netzgeschichte - als man Internet im Englischen noch groß schrieb - als 
(kurze) Renaissance des Flanierens: Neugier, Exploration und Offenheit für 
glückliche Zufallsentdeckungen zeichneten den »Cyberfläneur« aus, der 
durch die Straßen des Netzes schlenderte: 


The idea of exploring cyberspace as virgin territory, not yet colonized by go- 
vernments and corporations, was romantic [...] Online communities like Geo- 
Cities and Tripod were the true digital arcades of that period, trading in the 
most obscure and the most peculiar, without any sort of hierarchy ranking 
them by popularity or commercial value [...] For a brief moment in the mid- 
1990s, it did seem that the Internet might trigger an unexpected renaissance 
of flänerie. (Morozov, 2012) 


Einen anschaulichen Bericht über das Flanieren im Web liefert der Anthro- 
pologe Daniel Miller in einer seiner Arbeiten zum Webgebrauch der Einwoh- 
nerinnen von Trinidad. Er beschreibt eingehend, wie er sich diesen digita- 
len Raum erschließt - als Rhythmik des Suchens und Findens, von Ablen- 
kung, Aufmerksamkeit und Verführung (siehe auch Paasonen 2016). Miller 
wird nicht absichtlich zum Flaneur. Die Linkstruktur und die asthetische Ge- 
staltung der Webseiten machen ihn erst dazu. 


Even as a researcher | found that almost on a daily basis | would start with 
the intention of following one particular route of investigation and then find 
myself seduced by the aesthetics of one of the websites visited and moved 
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by the simplicity of clicking to follow a link proffered by that site. A few more 
clicks would send me hurtling down some channels carved out of cyberspace 
by the sculptured links of these website creators, often to such a degree that 
it was hard to retrieve the original place from which this diversion had began, 
but often grateful that my lack of determination had in fact led me to view 
some unexpected vistas and delight in some other creations than those | 
would otherwise have encountered. (Miller, 2000, S. 18) 


Obwohl der Browser auch heute noch eine zentrale Rolle spielt (zumindest 
auf Desktop-Computern), hat Web-Surfing als zentraler Begriff zur Beschrei- 
bung der Nutzungs- und Erfahrungsmodi des Netzes an Stellenwert einge- 
büßt: Metaphern werden alt und »uncool«, wie Dewey (2015) nahelegt. »Hard- 
ly anyone >surfs< the Web anymore« (Morozov, 2012). Doch sind nicht nur an- 
dere Metaphern an die Stelle des Web-Surfings getreten, sondern auch neue 
Ordnungsformen, die mit neuen Erfahrungsmodi verbunden sind. Morozov 
führt den Niedergang des Pariser Flaneurs auf architektonische und tech- 
nologische Veränderungen im Paris der zweiten Hälfte des 19. Jahrhunderts 
zurück: Das kleinräumige mittelalterliche Paris musste offenen Boulevards, 
künstlicher Beleuchtung, Verkehr und großen Warenhäusern weichen. Glei- 
chermaßen gilt für das Web, dass technologische und soziale Veränderungen 
die Web-Surferin - beziehungsweise den »Cyberflaneur« — zu einer immer 
unwahrscheinlicheren Figur werden lassen. Das zeigt sich an der zunehmen- 
den Irrelevanz des Browsers zugunsten von Apps (siehe zum Beispiel Morris 
& Murray 2018) und Plattformen (zum Beispiel Van Dijck et al. 2018; Bucher 
& Helmond 2017), aber auch wegen der Ökonomisierung und Monopolisie- 
rung (Srnicek, 2017; Doctorow, 2020) des Netzes. Die architektonischen be- 
ziehungsweise technologischen Veränderungen des Webs bestehen vor allem 
in einer weitgehenden Vorstrukturierung möglicher Verhaltensweisen (click, 
like, share) und der algorithmischen Vorsortierung von »Content« für spezi- 
fische Nutzerinnen oder Kategorien von Nutzerinnen. 

Knapp 20 Jahre nach Miller schreibt Jia Tolentino (2019) im New Yorker 
über die App TikTok, die aufgrund ihrer unzimperlichen Fokussierung auf 
algorithmische Empfehlungen als wegweisend gilt (siehe zum Beispiel Herr- 
man 2019) — wenn auch nicht unbedingt in einem positiven Sinn. Ich zitiere 
hier als Gegenüberstellung zu Daniel Millers autoethnografischer Beschrei- 
bung relativ ausführlich drei Abschnitte, in denen Tolentino ihre Nutzung 
der App beschreibt: 
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| opened the app, and saw a three-foot-tall woman making her microwave 
door squeak to the melody of »Yeah«, by Usher, and then a dental hygienist 
and her patient dancing to »Baby Shark«. A teen-age girl blew up a bunch 
of balloons that spelled »pussy< to the tune of a jazz song from the beloved 
soundtrack of the anime series »Cowboy Bebop«. Young white people lip- 
synched to audio of nonwhite people in ways that ranged from innocently 
racist to overtly racist. A kid sprayed shaving cream into a Croc and stepped 
into it so that shaving cream squirted out of the holes in the Croc. In five 
minutes, the app had sandblasted my cognitive matter with twenty TikToks 
that had the legibility and logic of a narcoleptic dream. [...] After | had wat- 
ched TikTok on and off for a couple of days, the racist lip-synchs disappeared 
from my feed. | started to see a lot of videos of fat dogs, teen-agers playing 
pranks on their teachers, retail workers making lemonade from the lemons 
of being bored and underpaid. | still sometimes saw things | didn't like: peo- 
ple in horror masks popping into the frame, or fourteen-year-old girls trying 
to be sexy, or rich kids showing off the McMansions where they lived. But | 
often found myself barking with laughter, in thrall to the unhinged caden- 
ces of the app. [...] | found it both freeing and disturbing to spend time ona 
platform that didn’t ask me to pretend that | was on the Internet for a good 
reason. | was not giving TikTok my attention because | wanted to keep up 
with the news, or because | was trying to soothe and irritate myself by loo- 
king at photos of my friends on vacation. | was giving TikTok my attention 
because it was serving me what would retain my attention, and it could do 
that because it had been designed to perform algorithmic pyrotechnics that 
were capable of making a half hour pass before | remembered to look away. 
(Tolentino, 2019, k.S.) 


TikTok erfordert kein Login. Die App generiert einen zufalligen Nutzerna- 
men. Man muss sich mit niemandem befreunden und man braucht keine 
Angaben über Interessen und Vorlieben zu machen. Die App startet schon 
beim ersten Mal automatisch im »For You«-Modus und die Nutzerin wird 
direkt mitten in einen unendlichen Strom von Videos versetzt. 

Millers Beispiel des Web-Surfings und Tolentinos Bericht über ihre Erfah- 
rung mit TikTok scheinen vordergründig ähnlich zu sein. Beide beschreiben 
eine digitale Welt, welche die Nutzerin immer weiter in den Kaninchenbau 
hineinzieht. Doch unterscheiden sie sich auf grundlegende Weise. 

Daniel Miller traversierte eine emergente und zufällige Ordnung anhand 
von Hyperlinks auf Webseiten: Die unüberschaubare Menge an Inhalten des 
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frühen Netzes mit all seinen persönlichen Webseiten und obskuren Onlinege- 
meinschaften bedingt gerade das Versprechen erlebnisreicher Exploration.’ 
Überfluss und Chaos wird zunehmend zum Problem erklärt, vor dem die 
Nutzerinnen bewahrt werden sollen. Miller war konfrontiert mit der relativ 
zufälligen, ungeordneten Welt der privaten Homepages der 90er-Jahre, die 
für die zeitgenössischen Surferinnen eine aus heutiger Sicht möglicherwei- 
se erstaunliche Faszination ausübten. Auch Tolentino ist einer kuriosen Welt 
ausgesetzt: Sie befindet sich aber in der (relativ) geschlossenen Welt einer 
App, welche die Nutzerinnen möglichst lange unterhalten beziehungsweise 
ihr »Engagement« erhalten will und dabei nichts dem Zufall überlässt. Ob- 
wohl die TikTok-Videos nur so auf die Nutzerin einzuprasseln scheinen, ist 
doch Millers Surfen im Netz »direkter«. Er springt von Seite zu Seite und 
nutzt dabei die von den Seitenbetreibern angebotenen Links. Sein Ausflug 
ins Netz ist von den vielen unterschiedlichen persönlichen Webseiten kura- 
tiert, welche die Links zu anderen Seiten nach eigenen Kriterien der Rele- 
vanz auswählen. Tolentinos TikTok-»Binge« ist hingegen kuratiert von auto- 
matisierten Empfehlungssystemen. Der zentrale Unterschied liegt nicht so 
sehr darin, was der Web-Surfer Miller oder die App-Nutzerin Tolentino »na- 
vigieren«, sondern in der Ordnungsweise dieser Dinge. Eine (relativ) zufällige 
Ordnung der Hyperlinks bei Miller. Oder eine nach spezifischen, wenn auch 
nicht weniger opaken, Kriterien geordnete Liste von Inhalten bei Tolentino. 

Daniel Miller surfte in einem Web, das noch weitgehend auf die Beobach- 
tung von Nutzerverhalten verzichtete. Jia Tolentinos Erfahrung ist dagegen in 
eine datafizierte und datafizierende Infrastruktur eingelassen, die zahlreiche 
ihrer Verhaltensweisen registriert und in Beziehung setzt zu vergangenem 
Verhalten und zu den Verhaltensweisen anderer Nutzerinnen. Tolentino hat 
nicht nur explizite »Interaktionsmöglichkeiten« wie »like«, »follow«, »share« 
oder »comment«. Auch die Art und Weise, wie sie den nie endenden Strom 
von Videos navigiert, erzeugt Nutzungsdaten. Wie oft sie sich ein Video an- 
schaut und ob sie ein Video zu Ende schaut oder schon vorher weiterscrollt, 


1 Obwohl dieses Versprechen womöglich von bestimmten stillschweigenden Annah- 
men abhängig ist, deren Bewährung je länger je mehr in Zweifel gezogen werden 
kann, falls sie überhaupt einmal gegolten haben sollten: Dass die stetige Expansion 
des Webs nicht als Problem erscheint, ist auch abgängig von einem Vertrauen in eine 
Wissenschaftskultur, in der man sich »implizit darauf verlassen [kann], dass nur sinn- 
volle und richtige Informationen eingegeben werden« (Schröter, 2004, S. 127). 
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dürfte ebenso im Hintergrund von TikTok registriert und ausgewertet wer- 
den. Zu Beginn wirkt es so, als würden die verschiedenen Videos willkürlich 
in Tolentinos Feed erscheinen. Unpassende, irrelevante oder uninteressan- 
te Videos werden ihr jedoch immer seltener angezeigt. Dank »[Allgorithmic 
pyrotechnics« kann TikTok seinen Nutzerinnen genau das vorsetzen, was sie 
mögen: »All you have to do is watch, engage with what you like, skip what 
you dont, and you'll find an endless stream of short videos that feel perso- 
nalized just for you«, wie TikTok in seiner Beschreibung im App Store ver- 
lautet. Und bevor man es merkt, ist eine halbe Stunde vergangen. Tolentino 
navigiert durch eine gefilterte Ordnung von Videos, die auf Vorhersagen be- 
ruht, wie Tolentino — qua Verhaltensweisen - mit bestimmten Videos »zu- 
sammenpasst«. Wenn Web-Surfen die Metapher ist, welche die dominante 
Erfahrungsform des frühen Netzes beschreibt, stehen »binging« oder »gor- 
king out« (McKelvey & Hunt, 2019, S. 5) für aktuelle Erfahrungsmodi digitaler 
Inhalte. Der Begriff »binge« steht zwar für den ununterbrochenen Konsum 
von TV-Serien. Er kann aber leicht adaptiert werden, um einen zeitgenössi- 
schen Konsummodus zu kennzeichnen, in dem ohne großes Zutun der Kon- 
sumentin nach dem Konsum einer Einheit sogleich die nächste, von Empfeh- 
lungssystemen vorselektierte, Einheit erscheint und sich zum Konsum oder 
zum Kauf anbietet. Die Nutzerin soll dabei weniger Zeit mit Suchen verbrin- 
gen müssen: Verschiedene Formen von Technologieunternehmen und ihre 
Algorithmen explorieren das Angebot für uns, so dass das Navigieren durch 
unbekannte Gewässer eine Erfahrung der Vergangenheit wird. Wir müssen 
nicht mehr selbst nach interessanten, relevanten oder uns unterhaltenden 
Dingen suchen. Sie sollen wie von selbst zu uns kommen. Wie Bucher nahe- 
legt, drehen sich die Verhältnisse von Suchen und Finden um: »[U]sers do not 
merely browse the content that they find interesting; the »interesting« content 
increasingly finds them« (Bucher, 2012, S. 12). 

In den zwanzig Jahren zwischen Miller und Tolentino hat sich das Inter- 
net grundlegend gewandelt. Seit der ersten Bannerwerbung 1994 hat sich eine 
digitale Ökonomie entwickelt, die maßgeblich auf Personalisierung und der 
Kommodifizierung von Nutzerdaten basiert (Crain, 2018; West, 2017). Tech- 
Unternehmen wählen für uns das nächste Video, »Produkte, die dich auch 
interessieren könnten« oder »Songs extra für dich« aus. Sie sprechen uns 
oftmals als einzigartige Individuen an und offerieren uns einen Spiegel auf 
die eigene Identität: Weshalb denkt TikTok, dass ich Videos mag, in denen 
sich Menschen gegenseitig Streiche spielen? Was habe ich in der Vergangen- 
heit angeklickt, dass mir im Webshop eine aufblasbare Badewanne empfoh- 
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len wird? Und: Würde ich mich eigentlich auch für Anleitungen von Fitness- 
übungen interessieren, wenn mir Instagram nie solche Posts angezeigt hät- 
te? Empfehlungssysteme ziehen uns als Nutzerinnen in ihre Rückkopplungs- 
schlaufen und versuchen, unsere Aufmerksamkeit — unser »engagement« in 
der Sprache des Marketings aber auch der Computerwissenschaften (Seaver, 
2018) - möglichst lange aufrechtzuerhalten. 

Miller und Tolentino beschreiben, wie ihnen digitale »Inhalte« auf der 
Vorderbühne präsentiert werden. In diesem Buch werfe ich einen Blick auf 
die Hinterbühne der digitalen Ökonomie. Ich gehe dabei insbesondere zwei 
Fragen nach. Erstens die Frage der Datafızierung: Wie entstehen Personenda- 
ten beziehungsweise wie produzieren und verarbeiten Unternehmen Perso- 
nendaten? Wie kommt es, dass Personendaten in der digitalen Ökonomie zu 
einer wertvollen »commodity« werden? Aus meiner Feldforschung drängte 
sich daran anschließend die zweite Frage nach Empfehlungssystemen auf, die 
in der digitalen Ökonomie eine zentrale Funktion einnehmen: Was ist die 
Funktion, die Empfehlungssysteme in der digitalen Ökonomie erfüllen und 
wie operieren sie? 


Datafizierung 


Was wir im Internet tun, ist vermeintlich immer schon datenförmig: »Every- 
thing is made of data these days« (zitiert in: Sadowski 2019). Alles, was in 
der Welt des Internets passiert, findet im Medium des Digitalen statt: Bits 
und Bytes, die zwischen Computern hin- und hergesendet, gespeichert und 
wieder abgerufen werden können. Aber nur weil etwas digital ist, heißt das 
nicht, dass wir es mit verrechenbaren Daten zu tun haben. Daniel Miller ver- 
weist auf ein beinahe schon historisches Beispiel eines Internetnutzers, des- 
sen Verhaltensweisen (noch) nicht Gegenstand einer weitgehenden Beobach- 
tung und Datafizierung waren. Es musste erst jemand auf die Idee kommen, 
dass die auf den ersten Blick trivialen und unbedeutenden Klicks zu Daten 
gemacht, ausgewertet und möglicherweise sogar »motiviert« werden können. 
»[C]oming to think of something as »data« in the first place« (Dourish & Gó- 
mez Cruz, 2018, S. 2), ist nicht so selbstverständlich, wie es uns im Zeitalter 
von Big Data und Algorithmen erscheinen mag. 

Datenunternehmer (Beauvisage & Mellet, 2020) wie Nik von Earlybird 
Digital verdienen ihr Geld damit, anderen Unternehmen das Potenzial von 
Personendaten zu offenbaren. Obwohl viele Unternehmen Daten über ihre 
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Verkäufe und Kunden registrieren und aufbewahren, sei nicht allen bewusst, 
auf was für einem »Datenschatz« sie sitzen würden. Nik sieht es als seine 
Aufgabe an, solchen Unternehmen dabei zu helfen, ein »data mindset« zu 
entwickeln, in ihren Datenbanken die Datenschätze zu heben und dadurch 
möglich zu machen, »was mit Daten möglich ist« (siehe Kapitel 2). Er knüpft 
dabei an ein verbreitetes Deutungsmuster an, demgemäß Big Data (zum Bei- 
spiel Mayer-Schönberger & Cukier 2013) und Personendaten (wichtig: Schwab 
2011) zu einer wertvollen neuen Ressource werden, um Profite zu generieren. 
Doch obwohl mit Daten im Sinne eines absoluten Mittels vieles möglich zu 
sein scheint, ist in der Praxis klar, dass es ein schwieriges Unterfangen ist, 
Personendaten für Firmen produktiv zu machen. 

Um zu untersuchen, wie Verhaltensweisen zu wertvollen und produk- 
tiven Personendaten werden, verfolge ich ein zweigleisig komplementäres 
Forschungsdesign (siehe Kapitel 3): Einerseits hatte ich die Gelegenheit, im 
schweizweit bekannten Kundentreue-Unternehmen Earlybird und in dessen 
Tochterfirma Earlybird Digital ethnografische Feldforschung zu betreiben. 
Dabei konnte ich untersuchen, wie sie im Rahmen ihrer Digitalisierungs- 
strategie die Verhaltensweisen, Interessen und Vorlieben ihrer Nutzerinnen 
als eine wertvolle und profitgenerierende Ressource mobilisieren.” Earlybird 
hat sich im Rahmen eines strategischen Digitalisierungsprojekts zum Ziel 
gesetzt, möglichst viele Daten über ihre »Member« zu sammeln und ihr Busi- 
nessmodell an diesen Daten auszurichten. Die Tochterfirma Earlybird Digital 
unterstützt Earlybird (und andere Unternehmen) in diesem Prozess. 

Andererseits ergab sich aus dieser Feldforschung eine weitere empiri- 
sche »fieldsite«: Der Onlinekurs »Introduction to Recommender Systems«, 
der von der University of Minnesota auf der e-Learning-Webseite Coursera 
(2017) angeboten wurde. Dieser Kurs vermittelt die technische Funktionswei- 
se und die grundsätzliche Logik verschiedener Empfehlungssysteme. Diese 
beiden empirischen Fieldsites ermöglichen einen komplementären Zugang 
zur unternehmerischen Praxis und zur computerwissenschaftlichen Theorie 


von Empfehlungssystemen.? 


2 Die Namen der Unternehmen sowie alle Namen der Mitarbeitenden wurden anony- 
misiert. 

3 Der komplementäre Einbezug von Bildungsmaterialien zu Empfehlungssystemen 
drängte sich auch deshalb auf, weil Earlybird zum Zeitpunkt der Forschung noch nicht 
über ein produktives Empfehlungssystem verfügte. 


Markus Unternährer: Momente der Datafizierung 


Auf dieser empirischen Basis beantworte ich zwei Fragen: Wie entstehen 
Personendaten? Und: Wozu dienen sie? Etwas abstrakter formuliert: Über 
welche sozialen und technischen Prozesse werden individuelle Verhaltens- 
weisen in ökonomisch verwertbare Daten transformiert? 

Die kurze Antwort: Personendaten werden aus relationalen Verwicklun- 
gen von Unternehmen und Nutzerinnen erzeugt und genutzt, um Unterneh- 
men, Nutzerinnen und eventuell Dritte weiter miteinander zu verwickeln. 
Dazwischen wird formalisiert, quantifiziert, kategorisiert, geputzt, gerech- 
net, verglichen und sortiert. 

In Kapitel 4 gebe ich einen Überblick über drei Momente der Datafizie- 
rung, indem ich eine Parallele zu Anna Tsings (2013; 2018) Arbeit über die 
Warenkette von Kiefernpilzen herstelle. Wie Tsing darlegt, transformieren 
verschiedene Akteure »Matsutake«-Pilze in ihrem Lebenszyklus von Geschen- 
ken zu Waren und wieder zu Geschenken. Die Pilze generieren gute Bezie- 
hungen zwischen untereinander bekannten Sammlerinnen und Aufkäufern. 
Diese Beziehungen werden in den Warenlagern von Großhändlerinnen ent- 
fernt, um die Pilze zu standardisierten und profitablen Waren zu machen. 
Sobald sie in Japan ankommen, beginnen die »relationalen Tentakel« der Pil- 
ze wieder zu wuchern: Traditionellerweise schenken sich Japanerinnen und 
Japaner die Pilze, um ihre guten Beziehungen zu erhalten und zu vertiefen. 

Der Lebens- und Warenzyklus des Pilzes erweist sich als gute Metapher, 
um über Personendaten nachzudenken: Welche Rolle spielen Relationen zwi- 
schen Nutzerinnen, Unternehmen und Dingen bei der Erzeugung und In- 
Wert-Setzung von Personendaten? Der Wert von Personendaten geht aus 
der Spannung zwischen heterogenen Wertregimes von Gabe und Ware, zwi- 
schen echten, spurenhaften Verhaltensweisen der Nutzerinnen, der Entfer- 
nung dieser Spuren und Sinninvestitionen und der Erzeugung neuer, viel- 
versprechender Relationen hervor. 

In Kapitel 5 beschreibe ich diese Spannung anhand eines »Datenexpe- 
riments«, das ich bei Earlybird mitverfolgen konnte: Ein Versuch, Daten zu 
generieren und diese Daten für die Kategorisierung der Nutzerinnen zu ver- 
wenden. Dabei zeigten sich drei Probleme. Erstens erwies es sich keines- 
wegs als einfach, überhaupt an Personendaten zu kommen. Es wurde für die 
Beteiligten bei Earlybird klar, dass sie den Nutzerinnen als Gegenleistung et- 
was bieten müssen, um sie in datengenerierende Beziehungen zu verwickeln. 
Zweitens stieß ich auf einen seltsamen Widerspruch: Earlybird war es doch 
gelungen, Personendaten zu generieren, die sie als »schöne Daten« bezeich- 
neten. Die Daten galten vor allem deshalb als »schön«, weil die Nutzerin- 
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nen viel von sich preisgegeben hatten: ihre Wünsche, Vorlieben und Interes- 
sen. Diese Bedeutungen, welche die Nutzerinnen mit ihren Äußerungen und 
Handlungen verbinden, schienen zwar zentral für den Wert und die Schön- 
heit der Daten, wurden in deren weiteren Lebensverlauf aber unter großem 
Aufwand »ignoriert«, um Nutzerinnen und ihre Verhaltensweisen vergleich- 
bar und verrechenbar zu machen. Das dritte Problem bestand darin, neue 
Marketing-Kampagnen oder »Empfehlungen« für die Nutzerinnen des Sys- 
tems aus den Daten abzuleiten, um die weitere Nutzung des Angebots zu mo- 
tivieren. So weit kam es aber nicht ganz. Stattdessen wurde der entwickelte 
»Classifier« zu einem Geschenk, um neue, an Data-Science-Dienstleistungen 
interessierte, Businesskunden für Earlybird Digital zu gewinnen. 

An meiner theoretischen Figur, die ich »Momente der Datafizierung« 
nenne, zeige ich anschliessend, dass die Datafizierung von Verhaltenswei- 
sen aus drei, in ihrer Logik sequentiellen, aber empirisch überlappenden, 
Momenten besteht, in denen Personendaten zwischen den verschiedenen 
Wertregimes von Gabe und Ware wabern (Kapitel 6 bis 8). 

Personendaten sind nicht einfach gegeben - aber sie können auch nicht 
ohne Weiteres genommen werden. Während die Techgiganten vermeintlich 
immer schon über Nutzerdaten verfügen, müssen kleine oder neue digitale 
Unternehmen das Problem des Kaltstarts lösen: Ohne Nutzerdaten können 
sie den (neuen) Nutzerinnen keine passenden Empfehlungen aussprechen, 
um sie weiter an das Unternehmen zu binden. Im ersten Moment (siehe Ka- 
pitel 6) sollen »inducement gifts« (Elder-Vass, 2016) die Nutzerinnen dazu 
verlocken, digitale Dienstleistungen oder Plattformen zu nutzen und im Ge- 
genzug den Unternehmen ihre Daten zu überlassen. Dieser Austausch ist 
gerahmt als »give-to-get« (Fourcade & Kluttz, 2020) und technisch so orga- 
nisiert, dass die Annahme des Geschenks bereits das Gegengeschenk kon- 
stituiert. In Momenten des »clicks« oder des »taps« werden Geschenk und 
Gegengeschenk gleichzeitig ausgetauscht - und so die Produktion von Per- 
sonendaten gestartet. 

Das zweite Moment der Datafizierung (Kapitel 7) dreht sich um einen 
produktiven Widerspruch von Personendaten. Auf der einen Seite gelten sie 
als Spuren von echten, und für die Nutzerinnen bedeutungsvollen, Hand- 
lungen. Auf der anderen Seite müssen diese Sinnüberschüsse aber technisch 
unsichtbar gemacht oder weggearbeitet werden, damit Nutzerinnen und ih- 
re Verhaltensweisen überhaupt vergleichbar und verrechenbar werden. Ich 
beschreibe zwei Varianten, wie Sinnüberschüsse operativ ignoriert werden: 
Durch Encoding stellen Unternehmen ihren Nutzerinnen bereits genuin digi- 


Markus Unternährer: Momente der Datafizierung 


tale Verhaltensweisen wie beispielsweise »liking«, »friending« oder »retweet« 
zur Verfügung, die sich in der tatsächlichen Gebrauchsweise unterschiedli- 
cher Nutzerinnen und Nutzergemeinschaften in ihrer Bedeutung maßgeb- 
lich unterscheiden können. In der Datenbank ist ein Like aber immer ein 
Like, unabhängig von den Sinninvestitionen der Nutzerinnen. 

Die zweite Variante besteht darin, Äußerungen von Nutzerinnen ex post 
zu vergleichbaren und verrechenbaren Daten zu machen. Das Verfahren der 
Vektorisierung ermöglicht es beispielsweise, Texte oder Wörter in einen ge- 
meinsamen geometrischen Raum zu projizieren, um sie in Bezug auf Ähn- 
lichkeiten und Differenzen vermessen zu können. Einerseits sollen sich Nut- 
zerinnen in digitalen Infrastrukturen (soziale Netzwerkplattformen, Strea- 
ming, Onlineshops, Suchmaschinen, etc.) aufauthentische Weise ausdrücken 
und verhalten können; andererseits abstrahieren Prozesse der Datafizierung 
von den subjektiven Bedeutungen, welche die Nutzerinnen mit ihren Hand- 
lungen und Ausdrucksweisen verbinden, und von den sozialen Kontexten, in 
denen diese Handlungen stattfinden. Wenn ich schreibe, dass die Deutungs- 
weisen der Nutzerinnen »ignoriert« werden, beabsichtige ich keine Metho- 
denkritik. Damit Daten als Daten funktionieren können, müssen sie von den 
lokalen, situativen Bedeutungen, die sie mittragen, abstrahieren - erst so 
öffnet sich das Potenzial ihrer weiteren Verwertung. 

Im dritten Moment der Datafizierung geht es darum, das latente Poten- 
zial von Personendaten auszuschöpfen (Kapitel 8). Was im Normalfall »Aus- 
wertung« oder in der automatisierten Version »Algorithmus« heißt, besteht 
in einer Verdichtung von Relationen: Einerseits werden über Operationen des 
Faltens unterschiedliche Annahmen, Normalitäts- und Ordnungsvorstellun- 
gen eingefaltet und neue Sichtbarkeiten und Unsichtbarkeiten produziert. 
Andererseits werden über algorithmische Operationen der Relationierung die 
nun vergleichbaren Nutzerinnen zu anderen Nutzerinnen (bzw. zu deren Da- 
ten) in Beziehung gesetzt. Es kommt zu einer Verdichtung der Relationen 
von Nutzerinnen und Dingen, so dass daraus die »passendsten«, vielverspre- 
chendsten neuen Relationen abgeleitet werden können. Ziel dieser Art von 
Auswertung ist nicht die Produktion von Erkenntnis per se, sondern die Pro- 
duktion von neuen, prospektiven Relationen und mehr Daten: »In the digi- 
tal context, social relations are not treated as »given«, but as something that 
can be »enhanced, or »generated« and »deployed« towards practical purposes« 
(Marres, 2017, S. 47). Der algorithmische Vergleich ist produktiv: Er stellt aus 
bestehenden (Daten-)Relationen neue Relationen zwischen Nutzerinnen und 
Dingen her. Welches TikTok-Video, welcher Earlybird-Deal oder welcher Song 
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auf Spotify soll der Nutzerin als nächstes angezeigt werden? Diese neuen Re- 
lationen zwischen Nutzerinnen und Dingen sollen als »good matches« die 
Beziehung von Nutzerin und Unternehmen aufrecht erhalten. 

Momente der Datafizierung funktionieren tendenziell zirkulär: Sobald 
die Datenproduktion in die Gänge kommt, treten prospektive Relationen in 
der Form von (personalisierten) Empfehlungen an die Stelle von digitalen Ge- 
schenken. 


Empfehlungssysteme 


Empfehlungssysteme verkörpern die drei Momente der Datafizierung und 
geben die Antwort auf die Frage, zu was Personendaten dienen bzw. worin ihr 
Wert besteht. Die automatisierte Empfehlung basiert auf (Personen-)Daten 
und generiert neue Verhaltensweisen und Personendaten (wenn sie funktio- 
niert). 

Empfehlungssysteme sind so gesehen eine zentrale Form der Digitalität: 
Eine Datafizierungs- und eine Relationierungsmaschine, die eine Brücken- 
funktion zwischen Unternehmen, Nutzerinnen, Dingen (z.B. »Deals« bei 
Earlybird, Filme, Songs, Produkte, etc. in anderen Fällen) und unter Umstän- 
den auch Drittparteien wie Werbekundinnen, Entwicklerinnen oder »con- 
tent providers« (wie beispielsweise Musikerinnen im Fall von Spotify) ein- 
nimmt und dabei Verhaltensweisen und Daten produziert, die sie gleich wei- 
ter nutzt. 

In der computerwissenschaftlichen Literatur gelten Empfehlungssyste- 
me als Lösung für das Problem des »information overload«: Sie reduzieren 
im Namen der Nutzerin ein überbordendes Angebot an digitalen Inhalten auf 
eine »mundgerechte«, auf den Geschmack der Nutzerin abgestimmte Men- 
ge, die eine Auswahl erleichtert oder sogar unnötig macht. Empfehlungen 
verbessern das Nutzererlebnis - so das Versprechen. Im Gegenzug brauchen 
die Nutzerinnen bloß ihre Verhaltensdaten zur Verfügung zu stellen: Perso- 
nalisierte Empfehlungen und Personendaten bilden Geschenk und Gegenge- 
schenk, das die Beziehung erhält und vertieft. 

Personalisierende Empfehlungssysteme verdichten die Relationen zwi- 
schen Nutzerinnen, Dingen und Unternehmen. Aufgrund bereits registrier- 
ter Verhaltensdaten prüfen sie alle möglichen, paarweisen Kombinationen 
von Nutzerinnen und Dingen, um diejenige auszuwählen, welche die Bezie- 
hung von Nutzerin und Unternehmen mit größter Wahrscheinlichkeit in die 
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Zukunft verlängert. Eine erfolgreiche Empfehlung generiert nicht nur »con- 
versions« (zum Beispiel in Form von Verkäufen), sondern auch neue Verhal- 
tensweisen - i.e. »engagement« —, die wiederum in die Berechnung neuer 
Empfehlungen eingehen. Empfehlungssysteme erweisen sich als Datafizie- 
rungsmaschinen und als Generatoren von »good matches« (Kapitel 9). 

Anhand von verschiedenen theoretischen und praktischen Beispielen aus 
dem Onlinekurs »Introduction to Recommender Systems« lege ich vier Ty- 
pen von Empfehlungssystemen dar und beschreibe, auf welche Weise sie die 
Brücke zwischen Nutzerinnen und Dingen schlagen (siehe Kapitel 10). Ich 
identifiziere drei unterschiedliche Weisen der Relationierung, d.h. wie aus 
bestehenden Relationen auf neue, prospektive Relationen geschlossen wird. 
Popularitätsmetriken relationieren pauschal: Sie unterstellen, dass dem Popu- 
lären eine allgemeine, für alle gleichermaßen geltende, Relevanz zukommt. 
Stereotypisierende Recommender verwenden soziale Kategorien: Zeigen Nutze- 
rinnen einer bestimmten Kategorie eine Vorliebe für bestimmte Dinge, wird 
die Kategorie zur Stellvertreterin für diese Vorliebe. Inhaltsbasierte Empfehlun- 
gen und Collaborative Filtering beruht auf paarweisen »matchings«: Jede Ein- 
heit wird zu jeder anderen Einheit in Beziehung gesetzt, um sie in Bezug 
aufihre Ähnlichkeit mit der interessierenden Einheit vergleichen zu können. 
Während die inhaltsbasierte Empfehlung ein einfaches paarweises Matching 
von Dingen durchführt, besteht Collaborative Filtering aus einem doppelten 
Matching-Verfahren: Erst werden Nutzerinnen untereinander, dann Nutze- 
rinnen und Dinge paarweise relationiert. 


Anschlüsse 


Dieses Buch ist ein Versuch, verschiedene Soziologien (und Ansätze aus der 
Anthropologie) zu verbinden, um etwas Licht in das Dickicht von Datafizie- 
rungsprozessen zu bringen. Von seinem Gegenstand her ist es ein Beitrag zu 
den »critical algorithm studies« (Gillespie & Seaver, 2015). Ich bediene mich 
aber einer Reihe von Konzepten aus verschiedenen Forschungs- und Theorie- 
kontexten, zu denen ich einen Beitrag leiste. 

Zu Beginn war meine Fragestellung vor allem aus einer Soziologie der Ka- 
tegorisierung (Bowker & Star, 1999) und des Vergleichs (Heintz, 2010, 2016) 
motiviert: Wie kategorisieren und vergleichen Unternehmen ihre Nutzerin- 
nen oder Kundinnen? Dem gehe ich vor allem in Kapitel 7 nach, wo ich 
beschreibe, wie Vergleichbarkeit von Verhaltensweisen ex-ante durch »en- 


1 Einleitung 


coding« oder ex-post durch »Vektorisierung« hergestellt wird. In den Kapi- 
teln 8 und 10 erweitere ich den Vergleichsbegriff von Bettina Heintz, indem 
ich »matching« oder »Relationierung« als spezifische Operation eines algo- 
rithmischen Vergleichs definiere, welche die zu vergleichenden Nutzerinnen 
jeweils paarweise zueinander in Beziehung setzt und diese Relationen ver- 
gleicht. Wie ich an verschiedenen Stellen zeige, ist diese Art des algorithmi- 
schen Vergleichs in viel geringerem Maß aufklassische Kategorien der Demo- 
grafie und der Identität angewiesen als traditionelle, statistische Formen der 
Beobachtung (Heintz, 2021). Wie ich insbesondere in Kapitel 10 darlege, geht 
es nicht darum, wer die Nutzerinnen sind. Viel wichtiger werden (temporä- 
re) Ähnlichkeitsrelationen und prospektive Relationen zwischen Nutzerinnen 
und Dingen. 

In der Feldarbeit stellte sich heraus, dass die Kategorisierungs- und Ver- 
gleichsweisen kaum in Isolation betrachtet werden können, sondern sich nur 
im Kontext der digitalen Datenökonomie angemessen verstehen lassen. Zu 
Beginn ging ich davon aus, dass sich das primäre Interesse von Unterneh- 
men darauf richtet, Wissen über ihre Nutzerinnen zu generieren. Natürlich 
stimmt es, wenn Earlybird sagt, es sei ihr Ziel, möglichst viel über die Nut- 
zerinnen zu wissen. Das ist aber nur ein Teil des Bildes. Dieses Ziel ließe 
sich auch mit den Mitteln der traditionellen Marktforschung erreichen. Da- 
ten sollen nicht nur Erkenntnisse über Nutzerinnen, sondern immer auch 
weitere Daten generieren (Sadowski, 2019). Wie auch andere Unternehmen 
der digitalen Ökonomie versucht Earlybird, eine ganze Datafizierungsinfra- 
struktur in Stellung zu bringen, in der aus den Verhaltensweisen der Nutze- 
rinnen Daten und aus Daten neue Verhaltensweisen generiert werden sollen 
(vgl. Zuboff 2018 zu »behavioral surplus«). Momente der Datafizierung sind 
in diesem Sinne nicht abgeschlossen. Sie zielen darauf, einen ewigen Kreis- 
lauf von Verhaltensweisen, Daten und neuen Verhaltensweisen aufrecht zu 
erhalten. Wenn der Kreislauf von datengenerierenden Verhaltensweisen und 
verhaltensgenerierenden Daten stoppt (oder gar nicht erst in Gang kommt), 
zerfällt auch der Wert der Daten (vgl. Hwang 2020 zur Überbewertung der 
Effektivität personalisierter Werbung). 

Der Wert von Daten besteht also darin, dass sie sowohl »engagement« 
erhalten und steigern (Seaver, 2018) und gleichzeitig neue Daten erzeugen 
können. Wie gut sie das tatsächlich können, ist eine andere Frage. Personen- 
daten und ihre Verarbeitung sind zentrale Bestandteile, um die ökonomische 
Zirkulation von Nutzerinnen, Daten und Content am Laufen zu halten. Wie 
dieser Wert der Daten in ihrer Zirkulation zustande kommt, dürfte für den 
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jüngeren Forschungszweig der Valuation Studies (z.B. Vatin 2013) beziehungs- 
weise der Soziologie der Bewertung (Meier et al., 2016) von Interesse sein. 
Wie ich zeige, verkörpern die drei Momente der Datafizierung eine mehrstu- 
fige, zirkuläre In-Wert-Setzung von Personendaten. Daten gehen aus einer 
reziproken Beziehung respektive aus einer Art Gabentausch zwischen Unter- 
nehmen und Nutzerinnen hervor und sie dienen dazu, diese Beziehungen zu 
gestalten (siehe Kapitel 6). 

Damit die registrierten Verhaltensweisen ihren Dienst als Daten tun kön- 
nen, müssen sie aber von ihren Kontextbezügen und Sinninvestitionen be- 
freit und in neuen, formalen Kontexten integriert und zu den datafizierten 
Verhaltensweisen anderer Nutzerinnen in Beziehung gesetzt werden. Um 
diese Vorgänge auszuformulieren greife ich auf theoretische Konzepte aus 
der Anthropologie (Mauss, 1923) und der Marktsoziologie (Fourcade & Healy, 
2016, 2017b) zurück. Insbesondere die ethnografische Arbeit von Anna Tsing 
(2013; 2018) zur Warenkette der Matsutake-Pilze und der Aufsatz A Maussian 
bargain: Accumulation by giftin the digital economy von Marion Fourcade und Da- 
niel Kluttz (2020) erweisen sich als produktiv: Personendaten werden wertvoll 
durch die Transformationen und Sortiervorgange, die sie zwischen den ver- 
schiedenen Wertregimes von Gaben und Waren hin- und herschieben. Sie 
gelten als Spuren authentischer Verhaltensweisen. Es lasst sich aber auch 
mit ihnen rechnen: d.h. sie machen die Verhaltensweisen individueller und 
idiosynkratischer Nutzerinnen »vergleichbar« (Heintz, 2010) beziehungswei- 
se »kommensurabel« (Espeland & Stevens, 1998). 

Soziale Relationen zwischen Unternehmen und Nutzerin (oder auch 
zwischen Gemeinschaften von Nutzerinnen) sind der fruchtbare Boden, auf 
dem Personendaten als Datenrelationen gedeihen können (Kapitel 6). Diese 
Relationen — ihre Bedeutungen und die damit verbundenen Verpflichtun- 
gen — müssen aber ignoriert werden (Kapitel 7), damit neue, prospektive 
Relationen errechnet werden können (Kapitel 8). Hier ist eine spezifische 
Form der Bewertung (siehe zur Unterscheidung von Bewertung und In-Wert- 
Setzung: Vatin 2013) in das dritte Moment der Datafizierung eingefaltet. Im 
algorithmischen Vergleich werden Relationen von Nutzerinnen untereinan- 
der oder Nutzerinnen und Dingen (siehe Kapitel 8, 10.3 und 10.4) verglichen 
und in Bezug auf die Frage bewertet, welche Relationen von Nutzerinnen und 
Dingen am ehesten das »engagement« der Nutzerinnen erhält und steigert. 
Das heißt, es werden nicht Personen per se bewertet (wie beispielsweise in 
Marketing oder Credit-Scoring üblich), sondern Relationen von Nutzerinnen 
und Dingen. 
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Im Zentrum steht also nicht das Individuum, sondern Relationen zwi- 
schen Nutzerinnen untereinander, Relationen zwischen Nutzerinnen und 
Dingen und Relationen zwischen Nutzerinnen und Unternehmen. Mo- 
mente der Datafizierung dezentrieren das Individuum und relokalisieren 
es in seinen Relationen zu anderen Nutzerinnen, Dingen, interessierten 
Drittparteien wie Werbekundinnen oder API-Entwicklerinnen. Damit biete 
ich eine marktsoziologische Perspektive an, die Datafizierung (und Emp- 
fehlungssysteme) als unternehmerische Versuche versteht, Beziehungen 
zu Nutzerinnen/Kundinnen aktiv zu gestalten (Cochoy et al., 2017). »In- 
ducement gifts« (Elder-Vass, 2016) spielen eine zentrale Rolle, um soziale 
Beziehungen einzugehen, die in ökonomisch profitable Beziehungen trans- 
formiert werden können. In der digitalen Ökonomie handelt es sich dabei 
typischerweise um umsonst nutzbare Dienstleistungen, deren Nutzung 
Personendaten generiert (z.B. ein Facebook-Konto). Mithilfe dieser Perso- 
nendaten sollen soziale Beziehungen in ökonomische transformiert werden 
(wenn z.B. eine kostenfreie Nutzungsperiode zu Ende geht) oder ökonomi- 
sche Beziehungen durch die richtigen Angebote zur richtigen Zeit für die 
richtige Nutzerin erschaffen werden. Datenbasierte Empfehlungssysteme 
sind Technologien, die »good matches« erzeugen - d.h. Relationen zwischen 
Nutzerinnen und Dingen, welche die Beziehung zwischen Unternehmen 
und Nutzerin in die Zukunft verlängern. 

Wie ich anhand der Untersuchung verschiedener Typen von Empfeh- 
lungssystemen darlege, gibt es verschiedene Arten, diese Verknüpfungen 
herzustellen. Historisch gesehen lässt sich die Tendenz beobachten, Kun- 
dinnen immer genauer zu beobachten und sie nicht nur als Teil eines 
abstrahierten, durchschnittlichen Publikums zu adressieren, sondern als 
individuell rückverfolgbare Nutzerin. »Personalisierung« ist aber nicht mit 
einem Interesse für das Individuum per se zu verwechseln. Es geht in 
Momenten der Datafizierung immer um Relationen. Deshalb ist es tref- 
fender, unter Personalisierung formale Verfahren zu verstehen, welche der 
»entpersonalisierten« Wirtschaft des 20. Jahrhunderts eine »Repersonali- 
sierung« (Hart, 2001, 2005; Moor & Lury, 2018) ökonomischer Relationen 
entgegenhalten und so die (vermeintliche) Dichotomie von persönlichen und 
ökonomischen Beziehungen unterlaufen. Unpersönliche Verfahren sollen 
quasi-persönliche Beziehungen zwischen Nutzerinnen und Unternehmen 
erzeugen, welche die ökonomischen Beziehungen in Gang halten. In Momen- 
ten der Datafizierung werden Personendaten erzeugt und in Wert gesetzt: 
Aus Daten abgeleitete »good matches« bilden den Kitt, der Unternehmen 
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und Nutzerinnen (und Dritte) zusammenhalten soll. Aus dieser Perspektive 
lasst sich Datafizierung und die damit verbundene Personalisierung als 
eine Verdichtung der Relationen zwischen Unternehmen, Nutzerinnen und 
Dingen (und möglicherweise Dritten) verstehen. 


2 »Was mit Daten möglich ist« 


Mit welchen Metaphern, Kategorien und Geschichten werden Daten be- 
schrieben? Ein Blick auf populäre und feldspezifische Beschreibungen und 
Narrative sowie eine Konsultation sozialwissenschaftlicher Arbeiten zum 
Datenbegriff zeigen: Daten werden einerseits als universelles Mittel gefeiert, 
mit denen sich beliebige Zwecke erreichen lassen. Andererseits trifft diese 
rhetorische Übertreibung, dass mit Daten alles möglich sein soll, auf die 
unternehmerische Herausforderung, mit Daten etwas Konkretes möglich zu 
machen beziehungsweise herauszufinden, »was mit Daten möglich ist«. 

Im zeitgenössischen Datenbegriff steckt eine Grundspannung: Auf der 
einen Seite gelten Daten als inhärent wertvoller Rohstoff, der für verschie- 
denste Anwendungen gebraucht werden kann. Auf der anderen Seite weisen 
Datenkritik - aber auch Datenpraktiker - darauf hin, dass Daten immer lokal 
situiert sind. Daten können niemals »roh« sein, weil sie immer auf etwas ver- 
weisen, das außerhalb von ihnen liegt. Diese Gleichzeitigkeit ist folgenreich 
und zieht sich durch die verschiedenen Inkarnationen von Personendaten 
während ihrer Imagination, Hervorbringung, Bearbeitung und Verarbeitung. 
Das wird in den anschließenden Kapiteln zu zeigen sein. 


»Was mit Daten möglich ist« 
Stellen Sie sich vor, Sie bummeln durch die Stadt. Sie gehen an verschiede- 
nen Geschäften vorbei und erhalten vor einem Kosmetikgeschäft eine Nach- 
richt auf Ihr Smartphone. Die Nachricht wurde von der installierten Earlybird 
App versendet und weist Sie daraufhin, dass eine Haarspülung gerade exklu- 
siv für Sie als Earlybird Member um 20 Prozent heruntergesetzt ist - just in 
jenem Geschäft, vor dem Sie gerade stehen. Die Haarspülung ist zudem das 
neue Produkt einer Marke, die Sie bereits kennen und mögen. 

So ähnliche Geschichten erzählt Nik, der Geschäftsführer von Earlybird 
Digital. Nik ist ein Datenunternehmer: Sein Business besteht darin, andere 
Unternehmen auf ihre brachliegenden Datenbestände aufmerksam zu ma- 
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chen und sie zu beraten, wie sie Daten gewinnbringend nutzen könnten. Die 
beschriebene Geschichte animiert ein Projekt, an dem Nik und das Mutter- 
unternehmen Earlybird gerade arbeiteten, als ich dort meine Feldforschung 
betrieb. Andere Unternehmen in der Schweiz hatten diese Vision mittlerwei- 
le umgesetzt — wenn auch nicht mit jener Art der Personalisierung, die Nik 
vorschwebt. Beispielsweise hatten die Schweizerischen Bundesbahnen (SBB) 
die App MyStation im Angebot, welche die Bewegung von Pendlerinnen per 
Bluetooth-Verbindung im Bahnhof trackte, um ihnen den schnellsten Weg 
zum Zug oder zum gewünschten Geschäft zu zeigen. Die App konnte per 
Push-Nachricht auf Rabattangebote wie zum Beispiel einen Cappuccino mit 
Gipfeli hinweisen. 

Um eine Pendlerin auf einen Cappuccino mit Gipfeli hinzuweisen, musste 
sich die SBB nicht allzu weit aus dem Fenster lehnen. Mit einer solch generi- 
schen Empfehlung kann nicht viel schief gehen. Denn: Pendler mögen mor- 
gens Gipfeli und Kaffee. Auch wenn Nik manchmal selber solche einfachen 
Beispiele macht, zählt immer das richtige Angebot zur richtigen Zeit am rich- 
tigen Ort für die richtige Person. Einem Minderjährigen morgens um neun 
Uhr einen Rabatt für einen Krug Bier in der lokalen Kneipe vorzuschlagen, sei 
kaum angebracht. Sie wollen ihre Member zum richtigen Zeitpunkt auf ein 
individuell passendes Angebot aufmerksam machen. Dazu braucht Earlybird 
Daten. 

An Daten über ihre Member kommen, Daten über ihre Member erzeugen 
oder Daten über ihre Member aus bestehenden Daten ableiten. Mitanderen 
Worten: möglichstviel über ihre Member zu wissen. Das ist diezentrale Missi- 
on des Digitalisierungsprojekts von Earlybird. Sie folgen damit dem von Mari- 
on Fourcade und Kieran Healy (2016) konstatierten »data imperative«, ein di- 
gitales, datengetriebenes Unternehmen zu werden. Wie Earlybird aber aus 
Erfahrung lernen musste, ist dieses Unterfangen aber nicht so einfach um- 
zusetzen. Verschiedene Versuche der Datenerhebung und -auswertung sind 
auch schon gescheitert oder wurden auf Eis gelegt. 

Nik sieht es als seine unternehmerische Aufgabe, Earlybird und anderen 
Unternehmen aufzuzeigen, »was eigentlich mit Daten alles möglich ist«. Sei- 
ne Herangehensweise besteht darin, mit Beispielanalysen zu demonstrieren, 
was sich konkret mit Daten machen lässt, wie man an (gute) Daten kommt 
und was gute Daten sind. Gleichzeitig zielen seine Bemühungen auch darauf 
ab, in Unternehmen ein »data mindset« zu etablieren, d.h. den Mitarbeiten- 


2 »Was mit Daten möglich ist« 


den vor Augen zu führen, dass sie bei allem, was sie tun, immer auch an Daten 
denken sollen. 

Daten sind für Nik und für Earlybird immer auch ein Zukunftsverspre- 
chen, das während meines Forschungsaufenthalts viele ihrer Tätigkeiten an- 
leitet, aber gleichzeitig immer auch zu entgleiten droht. Sie wollen herausfin- 
den, wie sie zu einem datengetriebenen Unternehmen werden können, wie 
sie an Daten kommen und was sie damit machen können. Earlybirds Digitali- 
sierungsprojekt und Niks unternehmerische Tätigkeit schließt an einen brei- 
ten Digitalisierungsdiskurs an, der Daten als eine natürliche Ressource und 
als probates Mittel zur Lösung bekannter und auch unbekannter, zukünftiger 
Probleme sieht.»By callingupon a future thatis imminent but alwaysjust bey- 
ond reach, what technologies can currently do is not as importantas what they 
might yet do in the future« (Elish & boyd, 2018, S. 13). Pointiert ausgedrückt: 
In Niks Formulierung steckt das Versprechen, dass mit Daten alles Mögliche 
möglich ist. Das ist im Verhältnis zu seinen kleinen, anwendungsbezogenen 
Beispielen und Geschichten die große Story der Daten. Gleichzeitig ist bei Ear- 
lybird Digital aber auch klar, dass-auch wenn sich mit Daten viele verschiede- 
ne Zwecke erreichen lassen -, sie doch überzeugend demonstrieren müssen, 
was sich konkret mit Daten machen lässt, um Aufträge zu erhalten. 


Klaus Schwab, der Begründer des World Economic Forum (WEF), hielt im 
WEF-Report »Personal Data: The Emergence of a New Asset Class« von 2011 
fest, dass Personendaten! in naher Zukunft zu einer neuen Vermögensklasse 
werden würden: 


personal data is generating a new wave of opportunity for economic and so- 
cietal value creation. (...) As some putit, personal data willbethenew»oik-a 
valuable resource of the 21st century. It will emerge as a new asset class tou- 
ching all aspects of society. (Schwab, 2011, S. 5) 


Daten als das neue Ol, das neue Gold oder das neue Geld zu prasentieren, 
ist erst mal eine grandiose Behauptung. Sie unterstellt, dass Daten als uni- 
verselles Mittel fungieren können, mit dem sich alle möglichen Zwecke und 


Wenn im Weiteren von »Daten« die Rede ist, meine ich in der Regel Personendaten 
(wenn nicht anders vermerkt). 
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Ziele erreichen lassen und das in andere Formen von Kapital konvertierbar 
ist.” 

Von Daten als dem neuen Ol oder dem neuen Gold zu sprechen, ist nur 
eine der prominenten Varianten, mithilfe von Naturmetaphern fremde, neue 
oder woméglich bedrohlich wirkende Technologien zu verstehen, zu »domes- 
tizieren« und sie in bestehende Weltsichten zu integrieren (Lupton, 2014, 
2016, Kapitel 5).” Eine weitere metaphorische Umschreibung von Big Data 
bemüht Bilder von Wasser, Liquidität und »Flow« (Nelms, 2014): In Daten 
kann man schwimmen - oder ertrinken. Daten »fließen« durch »Ökosyste- 


me« (Schwab, 2011) und füllen Flaschen oder ganze »data lakes«: 


Ifyouthink of a datamart asa store of bottled water—cleansed and packaged 
and structured for easy consumption — the data lake is a large body of water 
in a more natural state. The contents of the data lake stream in from a source 
to fill the lake, and various users of the lake can come to examine, dive in, or 
take samples. (Marr, 2018) 


Gegenwärtige Metaphern, die das Wesen und den Umgang mit (Big) Data 
umschreiben, versprechen Potenziale und beschwören Gefahren. Die Vorstel- 
lung eines Meers an Daten verdeutlicht sowohl die Gefahr als auch das große 
Potenzial, jene Gefahr durch erfolgreiche Navigation zu meistern und der Da- 
ten mächtig zu werden: Entweder ertrinken oder schwimmen und »insights« 
gewinnen (Deloitte, 2018). 


»Spear fishing« 

Die Spannung zwischen dem großen Potenzial von Personendaten und der 
Frage, was konkret damit möglich ist, kommt bei Earlybird verdichtet in der 
Metapher des »spear fishing« zum Ausdruck.* Die»Datenleute« verfügen ge- 
maf eigener Einschätzung nicht über das notwendige »Domänenwissen«° 


und müssten deshalb Datenanalysen »ins Blaue hinein« machen. Deshalb 


2 Vgl. Deutschmann (2000) zu Geld als absolutem Mittel. 

3 Die verbreitete Verwendung solcher Metaphern verweist auf die nicht abgeschlosse- 
nen Deutungsprozesse und die interpretative Flexibilität (Pinch & Bijker, 1984) der 
Big-Data-Technologie. Auch wenn Madeleine Elish und danah boyd (2018) konstatie- 
ren, wie das Schlagwort Big Data aufgrund einer Assoziation mit Überwachung und 
Privatsphäreverletzungen bereits anderen Begriffen wie Artificial Intelligence oder 
Machine Learning weichen muss. 


2 »Was mit Daten möglich ist« 


sind sie auf diejenigen angewiesen, die über spezifisches Wissen über mög- 
liche Problemlagen oder Datenanwendungsfälle verfügen, d.h. Wissen dar- 
über, wonach sie in den Daten suchen sollen. Simon, der Senior Data Scien- 
tist bei Earlybird, und sein Team würden zwar über das technische Knowhow 
der Datenauswertung verfügen, aber das Wissen über die Domäne verortet 
er bei Earlybirds Marketingleuten. In einer Sitzung präsentiertereinige Kenn- 
zahlen aus der Trackingdatenbank der App. Er fügt dann aber an, dass »seine 
Jungs« nicht einfach Zahlen generieren sollten. Das Marketing müsse sagen, 
welche Zahlen sie für ihr»daily business« brauchen. Max, der strategische Ge- 
schäftsführer, schlägt vor, dass sie doch mal schauen könnten, was ihnen in 
den Daten »auffällt«, da das Marketing vielleicht gar nicht wisse, was interes- 
sant sein könnte. Und auch Nina, die für den Kontakt mit den Banken zustän- 
dig ist, hier aber als Vertreterin des Marketings spricht, möchte erst mal von 
Simon und seinem Team wissen, was es denn »alles gibt«. Simon erklärt, dass 
sie das schon machen könnten, dass das aber die»Luxusvariante«sei, dieerals 
»spear fishing« bezeichnet: Dazu müsse man jemanden bezahlen, der explo- 
rativ die Daten auswerte und »einfach mal mit dem Speer ins Wasser sticht«. 
Max schlägt einen Experten für Datenanalysen vor, der Earlybird Anfang Ok- 
tober beraten hatte. Dieser verfüge über viel Erfahrung und könnte dadurch 
den »Teich« vielleicht etwas verkleinern. 

Die vermeintlich nebenbei geäußerte Aussage »was mit den Daten mög- 
lich ist« erfasst die Komplexität der Problemlage nicht ganz. Es scheint alles 
oder zumindest vieles möglich zu sein, doch was soll damit konkret gesche- 
hen? Entgegen der großen Erzählung sind Daten nicht per se bedeutsam und 
wertvoll für Earlybird Digital: Um als Unternehmen erfolgreich zu sein, müs- 
sen sie zeigen, was mitihnen konkret möglich ist. 


Nicht zu verwechseln mit »spear phishing« als Praxis von Cyberkriminellen. 


Auf den Begriff der »Domäne« macht mich erstmals Dani aufmerksam. Er studiert bei 
Simon an der Hochschule für Informatik und ist bei Earlybird Digital angestellt, um 
ein Empfehlungssystem für Earlybird zu entwickeln. Er erklärt mir einige Probleme, 
die sich bei der Entwicklung von Recommendern stellen. Eines dieser zentralen Pro- 
bleme ist die»Domäne« oder auf Englisch »domain«. Er erklärt mir, dass verschiedene 
Domänen unterschiedlich funktionieren würden und unterschiedliche Zielsetzungen 
und Businessmodelle hätten. Er verdeutlicht die Differenz am Beispiel von Netflix und 
Blendle, einer Webseite, die Newsartikel verschiedenster Printmedien für Nutzerin- 
nen personalisiert auswählt. Beide Webseiten geben ihren Nutzerinnen Empfehlun- 
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Cornelius Puschmann und Jean Burgess (2014) identifizierten in Online- 
Newsbeiträgen zum Thema Big Data zwei Grundmetaphern: Große Da- 
tenmengen als natürliche Kraft (Wasser, Flut), die es zu kontrollieren gilt, 
und Big Data als zu konsumierende Ressource (Öl, Gold). In ihrem Artikel 
kritisieren sie die Unzulänglichkeit dieser Metaphern. Einerseits verde- 
cke die Vorstellung von Big Data als natürlich vorkommender Ressource die 
datenerzeugenden Akteure. Daten werden nicht entdeckt, sondern geschaf- 
fen. Andererseits sei der Wert von Daten nicht für alle Akteure derselbe. 
Wert ist den Daten nicht inhärent. Er wird erst im Prozess der Analyse 
eingeschrieben: 


Suggesting that the intrinsic meaning of data is, like nuggets of gold, alrea- 
dy there, just waiting to be uncovered, means distancing the interpretation 
from the interpreter and her subjectivity. Data can be relied on as a driver 
of economic growth only if its value is both predictable and stable rather 
than the result of ongoing interpretation and negotiation, but the value of 
big data seems extremely difficult to predict. (Puschmann & Burgess, 2014, 
S.1699) 


Die Metapher von Daten als zu konsumierender Ressource unterschlage zudem die 
Interpretationsarbeit, die nötig ist, um Daten Sinn abzuringen. Was die Da- 
ten bedeuten, sei vermeintlich evident, »requiring no or very little conscious 
interpretation or reflection« (Puschmann & Burgess, 2014, S. 1700). 


»Der Datenschatz« 

Der zukiinftige Erfolg oder Misserfolg von Earlybird Digital ist abhangig da- 
von, ob sie Daten konkret nutzbar machen können. Dabei besteht die Annah- 
me, dass Daten nicht nur den Erzeugern — die mit Wissen über den lokalen 
Kontext der Datenerzeugung ausgestattet sind —, sondern auch unbeteiligten 
Dritten wie Earlybird Digital Einblick in ihre Geheimnisse gewähren können. 
Earlybird Digitalistaber keineswegs naiv: Das Unternehmen weiß, dass es Da- 
ten erst angemessen verstehen kann, wenn es den Kontext ihrer Entstehung 
und die Bedürfnisse der Kundinnen versteht. 


gen ab: Filme und Serien im Fall von Netflix; Nachrichtenartikel im Fall von Blendle. 
Die Domäne »Movie« unterscheide sich aber von der Domäne »News« insbesondere 
dadurch, dass Newsartikel im Gegensatz zu Filmen schneller »verfallen« würden. Um 
einen guten Recommender zu bauen, brauche es Wissen über die Domäne, in welcher 
der Recommender eingesetzt werden soll. 


2 »Was mit Daten möglich ist« 


Nik erzählt mir, dass vielen Firmen nicht bewusst sei, auf welchem »Da- 
tenschatz« sie safgen, was eine große Chance für Earlybird Digital sei. Gerade 
KMU ohne eigene Datenabteilungen nehmen ihre Daten-Dienstleistungen 
in Anspruch oder sind zumindest daran interessiert. Ein Beispiel für ein sol- 
ches Unternehmen ist Hofstetter, ein lokales Kleidergeschäft mit fiinf Filialen. 
Hofstetter wendet sich an ein gehobenes Publikum, das sich gerne in einem 
persönlichen Gespräch beraten lässt. Das Geschäft setzt auf wiederkehrende 
Kundinnen, die sich für eine Verkaufsberatung bei ihren bevorzugten Verkäu- 
ferinnen anmelden können. Earlybird Digital erhielt den Auftrag, explorativ 
aufzuzeigen, welche Daten überhaupt vorhanden seien und was damit mög- 
lich sei. 

Die Metapher des Datenschatzes verweist auf die Arbeit, die notwendig 
ist, um den Schatz zu heben und zu sichten. Im Januar 2016 fahren ein Verkäu- 
fer von Hofstetter, Nik, Mike und ich als Beobachter nach Uri zum Hersteller 
des Kassensystems von Hofstetter. Fünf Stunden lang erklärt uns Stefan an- 
hand eines komplexen Schemas die Datenstruktur: Kundenprofile, Lagerbe- 
stände, Warenzu- und -abflüsse, Einkaufs- und Verkaufspreise, Farben, Grös- 
sen, Schnitte und wie alles zusammenhängt. Mike und Nik stellen Fragen zu 
den vielen verschiedenen Datenfeldern und Variablen. Stefan gibt mal mehr, 
mal weniger bereitwillig Antwort: Die Sitzung soll zwar einerseits Earlybird 
Digital helfen, die Datenstruktur und die Daten zu erschließen. Andererseits 
scheint Stefan aber auch abzuwägen, was er alles hergeben soll. Immer wie- 
der kommt die Antwort, dass ein bestimmtes Feld für Earlybird Digital nicht 
relevant sei. Die Daten gehören zwar dem Kunden (d.h. Hofstetter), die Da- 
tenstruktur aber nicht: »Das geben wir eigentlich nicht raus«, meint Stefan. 
Den Datenschatz zu heben umfasst sowohl, die Daten und ihre Struktur zu 
verstehen, als auch deren Besitz- und Eigentumsverhältnisse zu verhandeln. 

Die Metapher des Datenschatzes bezieht sich auf den Wert, der potenziell 
in den Daten steckt. Sie dient Nik als Marketingargument beziehungsweise 
als Versprechen an die Unternehmen, eine Ressource für sie nutzbar zu ma- 
chen, die sie eigentlich bereits besitzen. Das Unternehmen selbst hat den Da- 
tenschatz angehäuft. Doch er blieb bisher unbemerkt und erschließt sich erst 
dem sachkundigen Blick der Experten. 

Die Metapher des Datenschatzes suggeriert, dass Daten inhärent wert- 
voll seien. Im praktischen Verständnis von Earlybird Digital ist aber klar, dass 
der Wert der Daten nicht einfach so gegeben ist. Zuverlässig funktionierende 
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Infrastrukturen und Datenbanken, ein Blick für Daten sowie lokales Wissen 
sind notwendig, um den Schatz anzuhäufen, zu entdecken und schließlich als 
Ressource für weitere Anwendungen zu erschließen. Darin gerade besteht die 
Leistungvon Earlybird Digital: den Unternehmen bei der In-Wert-Setzung von 
Daten behilflich zu sein. 


Sowohl die Metapher der Datenflut als auch die Metapher von Daten als Res- 
source geben vor, Daten seien unveränderlich, kontextunabhängig und hät- 
ten einen inhärenten Wert. Daten (beziehungsweise Big Data in der Unter- 
suchung von Puschmann und Burgess) erscheinen als generalisiertes Mittel, 
mit dem sich beliebige Zwecke erreichen lassen. Solche Metaphern übertrei- 
ben, was mit Daten möglich sei. Wären Daten unabhängig vom Kontext ihrer 
Entstehung, könnten sie auch in ganz anderen Kontexten gewinnbringend 
sein — ihr inhärenter Wert bliebe stabil, auch wenn die Daten reisen. 

Daten gelten als ein Mittel mit dem sich beliebige Zwecke erreichen las- 
sen. Daten/Algorithmen - verstanden als sozio-technisches Ensemble (Gille- 
spie, 2016) — erscheinen als »universelle Mittel«, »um komplizierte Probleme 
zu lösen und objektive vertrauenswürdige Entscheidungen herbeizuführen« 
(Häussling 2019, S. 332; siehe auch: Beer 2017). Der konkrete Nutzungswert 
der Daten ist aber oftmals zweitrangig (Sadowski, 2019, S. 4£.):° Die Visi- 
on wertvoller Daten, kombiniert mit mächtigen Algorithmen, animiert ge- 


6 Es ist keine neue Erkenntnis, dass sich der Nutzen von Daten erst in der Zukunft zei- 
gen könnte. So heisst es beispielsweise in der verfassungsrechtlichen Überprüfung des 
deutschen Volkszählungsgesetzes von 1983: »Bei der Datenerhebung für statistische 
Zwecke kann eine enge und konkrete Zweckbindung der Daten nicht verlangt werden. 
Es gehört zum Wesen der Statistik, daß die Daten nach ihrer statistischen Aufberei- 
tung für die verschiedensten, nicht von vornherein bestimmbaren Aufgaben verwen- 
det werden sollen; demgemäß besteht auch ein Bedürfnis nach Vorratsspeicherung. 
Das Gebot einer konkreten Zweckumschreibung und das strikte Verbot der Samm- 
lung personenbezogener Daten auf Vorrat kann nur für Datenerhebungen zu nicht- 
statistischen Zwecken gelten, nichtjedoch bei einer Volkszählung, die eine gesicherte 
Datenbasis für weitere statistische Untersuchungen ebenso wie für den politischen 
Planungsprozeß durch eine verläßliche Feststellung der Zahl und der Sozialstruktur 
der Bevölkerung vermitteln soll. Die Volkszählung muß Mehrzweckerhebung und - 
verarbeitung, also Datensammlung und -speicherung auf Vorrat sein, wenn der Staat 
den Entwicklungen der industriellen Gesellschaft nicht unvorbereitet begegnen soll. 
Auch wären Weitergabe- und Verwertungsverbote für statistisch aufbereitete Daten 
zweckwidrig.« (Bundesverfassungsgericht, 1983) 


2 »Was mit Daten möglich ist« 


genwärtige und zukünftige Projekte der Datensammlung und der Digitali- 
sierung (Elish & boyd, 2018).” Marion Fourcade und Kieran Healy diagnos- 
tizieren einen »data imperative«, ein institutionalisierter, organisatorischer 
Mythos, welcher Organisationen motiviert, Daten zu sammeln, selbst wenn 
weitgehend unklar ist, ob und wie diese Daten genutzt werden konnten. 


It does not matter that the amounts [of data] collected may vastly exceed 
a firm's imaginative reach or analytic grasp. The assumption is that it will 
eventually be useful, i.e. valuable. (Fourcade & Healy, 2016, S. 13) 


Daten werden trotz fehlender konkreter Vorstellungen, Projekte oder Anwen- 
dungen erst mal »gesammelt« - in der vagen Voraussicht, dass sie sich später 
als nützlich erweisen werden. 

Daten entstehen nicht in einem Vakuum, sondern in verschiedenen 
sozialen Kontexten (boyd & Crawford, 2012). Diese Kontextgebundenheit 
wird als eine De-Essenzialisierung von Daten verstanden. Kitchin (2014) 
erklärt - trotz einer Aufzählung verschiedener relativ kontextunabhängiger 
Typologien von Daten -, dass Daten immer gerahmt sind und diese Rah- 
mungen für eine soziologische Analyse unbedingt miteinbezogen werden 
müssen (siehe auch Borgman 2015, S. 18): 


While many analysts may accept data at face value, and treat them as if they 
are neutral, objective, and pre-analytic in nature, data are in fact framed 
technically, economically, ethically, temporally, spatially and philosophical- 
ly. Data do not exist independently of the ideas, instruments, practices, con- 
texts and knowledges used to generate, process and analyse them. (Kitchin, 
2014, S. 28) 


Gegen die Sichtweise von »data before the fact« lancieren Lisa Gitelman und 
Virginia Jackson (2013) ihre viel zitierte Kritik an der scheinbaren Rohheit von 
Daten als Widerspruch in sich (Gitelman, 2013). Die Metapher der Rohdaten 
harmoniert mit der von Daniel Rosenberg (2013) beschriebenen rhetorischen 
Funktion von Daten und linearen Vorstellungen von Wissenserzeugung: 


At first glance data are apparently before the fact: they are the starting point 
for what we know, who we are, and how we communicate. This shared sense 


7 Nick Couldry und Joseph Turow (2014) weisen darauf hin, dass die epochale Rede von 
Big Data auch eine Zumutung sein kann. Proponenten von Big Data würden sogar Or- 
ganisationen und Branchen wie Werbung und Marktforschung »belehren« wollen, in 
denen Big Data schon längst ein wesentlicher Bestandteil ist. 
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of starting with data often leads to an unnoticed assumption that data are 
transparent, that information is self-evident, the fundamental stuff of truth 
itself. lf we’re not careful, in other words, our zeal for more and more data can 
become a faith in their neutrality and autonomy, their objectivity. (Gitelman 
& Jackson, 2013, S. 2f.) 


Auf der einen Seite scheinen Daten als rohe und universell anwendbare Res- 
source (Anderson, 2008), einen objektiven »view from nowhere« (Haraway, 
1988; Elish & boyd, 2018) zu ermöglichen. Andererseits erscheinen Daten nie- 
mals roh (Gitelman, 2013), sondern immer »gekocht« (Biruk, 2018; Bowker, 
2013; Boellstorff, 2015), lokal (Loukissas, 2019) oder situiert (Elish & boyd, 
2018). 

Anstatt die Rede von der Rohheit der Daten als Ubertreibung abzutun, 
zeigt sich im Feld, dass die damit verbundene Potenzialitat der Daten, d.h. ih- 
re potenzielle Formbarkeit zu vielen verschiedenen Anwendungsfallen wich- 
tig und folgenreich ist. Mit Daten scheint alles Mögliche möglich zu sein. 
Andererseits erweist es sich für Earlybird und Earlybird Digital als prakti- 
sches Problem, etwas Konkretes mit Daten möglich zu machen. Wie deren 
Herangehensweise zeigt, sind auch sie - ähnlich wie Ethnografen - darauf 
angewiesen, sich Kontext- und Domänenwissen anzueignen, um die Daten 
und ihr Potenzial für Anwendungsfälle zu verstehen. Den Praktikern im Feld 
ist (zumindest im Fall von Earlybird) im konkreten Fall bewusst, dass die Da- 
ten erst einmal gebändigt werden müssen, damit sie ihren Dienst als Daten 
tun können. 

Ethnografische Arbeiten zeigen, welche Reibungen während der Daten- 
produktion und -auswertung entstehen können: Dawn Nafus (2014) kritisiert 
prominente Datenmetaphern, um aufzuzeigen, dass Daten im Prozess ihrer 
Erzeugung und Auswertung um einiges widerspenstiger sind, als prominente 
Beschreibungen nahelegen. Sarah Pink et al. (2018) benutzen den Begriff der 
»broken data«, um diese Widerspenstigkeit und Eigensinnigkeit von Daten 
(in ihrem Beispiel Daten der Selbstquantifizierung) zu benennen. Sie wol- 
len mit ihrer konzeptuellen Metapher der »broken data« die Aufmerksamkeit 
darauf lenken, dass Daten und ihre Infrastrukturen in einem permanenten 
Prozess der Beschädigung (»data as ongoingly being broken« (2018, S. 10)) 
stehen. Es geht ihnen aber nicht so sehr darum, den Datenbegriff zu demys- 
tifizieren, sondern vor allem den Fokus auf die Reparatur und den Unterhalt 
sowie die Kontingenzen von Daten und Infrastrukturen zu lenken (siehe z.B. 
Ensmenger (2014) für den Fall von Software im Allgemeinen). Anissa Tan- 


2 »Was mit Daten möglich ist« 


weer et al. (2016) beschreiben die Arbeit mit Daten als einen Prozess von 
»breakdown und repair«. Diese ethnografischen, die Datenrhetorik kritisie- 
renden, Arbeiten verdeutlichen, dass Daten im Alltag von Praktikerinnen um 
einiges widerspenstiger sein können. Sie verweisen auf die Hinterbühne der 
Datenpraktiken und damit auch auf das bei Earlybird und Earlybird Digital 
identifizierte Problem, aus den vielversprechenden Daten überhaupt etwas 
machen zu können. Das Potenzial von Daten ist im Alltag von der Schwie- 
rigkeit der tatsächlichen Anwendung beziehungsweise dem Widerstand der 
Daten geprägt, sich produktiv zu zeigen. Die Metapher der rohen Daten ist 
aus methodologischer Hinsicht sicherlich zu kritisieren. Für die Anwende- 
rinnen ist es aber vor allem ein praktisches Problem, aus Daten Rohdaten 
zu machen, die sich für weitere und womöglich unvorhergesehene Zwecke 
produktiv machen lassen. 

Trotz der Erkenntnis der radikalen Situiertheit und Widerspenstigkeit 
von Daten ist nicht von der Hand zu weisen, dass digitale Personendaten 
in der Praxis oftmals tatsächlich als »immutable mobiles« funktionieren und 
ihre Situiertheit transzendieren. Bruno Latour weist darauf hin, dass Daten 
als Objekte fungieren, »which have the properties of being mobile but also 
immutable, presentable, readable and combinable with one another« (2011, 
S. 26).° In Bezug auf digitale Daten machen diese Eigenschaften gerade ihre 
Datenhaftigkeit aus: Oftmals lassen sie sich von ihren lokalen Kontexten der 
Erzeugung ablösen und mit anderen Datensätzen kombinieren, so dass sie 
zumindest potenziell auch in ganz anderen Kontexten angewendet werden 
können. Der soziologischen/ethnografischen Ablehnung einer übersteiger- 
ten Rhetorik von Rohdaten steht gegenüber, dass genau darin deren Stärke 
besteht: Sie können von lokalen Kontexten abstrahieren. Daten sind in der 


8 Siehe auch Madeleine Akrich (1992, S. 425f.):»Wenn technische Objekte einmal stabi- 
lisiert sind, werden sie Instrumente des Wissens. Wenn also eine Elektrizitätsgesell- 
schaft unterschiedliche Tarife für viel und wenig verbrauchende private Benutzer, für 
Werkstätten und für Industrieverbraucher ansetzt, findet sie Wege, verschiedene so- 
ziale Schichten zu charakterisieren und zu identifizieren. Wenn sie auch Kategorien 
wählt, die in anderen sozioökonomisch-politischen Netzwerken verwendet werden, 
kann das von ihr produzierte Wissen »exportiert<werden. »Daten< können also aus dem 
Netzwerk gezogen und an einen anderen Ort übermittelt werden, z.B. zu Ökonomen, 
die an einer Beziehung zwischen den Energiekosten oder dem Bruttosozialprodukt 
und dem Konsum interessiert sind. Die Konversion soziotechnischer in reine und ein- 
fache Fakten hängt jedoch von der Fähigkeit ab, technische Objekte in Black Boxes 
umzuwandeln.« 
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Praxis mobil: Sie werden an anderen Orten, zu anderen Zeiten und von an- 
deren Akteuren neuen Zwecken zugeführt. Das scheint Daten überhaupt zu 
Daten zu machen. Wie auch Zahlen (Heintz, 2010; Porter, 2001) scheinen Da- 
ten einfacher als Sprache zwischen verschiedenen lokalen Kontexten reisen 
zu können. 

Einen entscheidenden Punkt von Gitelman/Jackson (2013) sehe ich in ei- 
ner Formulierung in der Einleitung zu ihrem Band: 


the seemingly indispensable misperception that data are ever raw seems to 
be one way in which data are forever contextualized—that is, framed—ac- 
cording to a mythology of their own supposed decontextualization. (Gitel- 
man & Jackson, 2013, S. 5f.) 


Das Rätsel der Daten liegt in dieser Kontextualisierung als dekontextuali- 
siert. Die Datenkritik verweist auf diesen Widerspruch: Daten sind immer 
gleichzeitig zu wenig und zu viel. Zu wenig, weil Daten (genauso wie auch 
Zahlen) die Kontinuitäten des Alltags auf diskrete Einheiten reduzieren und 
alles, was nicht in dieses Schema passt, ignorieren und unsichtbar machen. 
Daten sind aber auch immer zu viel, weil sie vor überschüssigen Sinngehal- 
ten triefen. Sie verweisen immer auch auf individuelle, soziale, technische, 
ökonomische und historische Kontexte ihrer Erzeugung. Gerade weil diese 
Kontexte der Datenerzeugung verschleiert werden, können Daten überhaupt 
als Daten funktionieren und zu anderen, neuen und nicht ursprünglich vor- 
gesehenen Zwecken eingesetzt werden. 

Daten - insbesondere Personendaten - verweisen immer auf »mehr«: Auf 
soziale Kontexte, in denen sie entstanden sind, auf vergangene und zukünf- 
tige Verhaltensweisen von Individuen oder auf Geheimnisse und Erkenntnis- 
se, die in den Daten stecken. Gerade in diesen Sinnüberschüssen besteht ihre 
Faszination, die sich der Datenunternehmer Nik zu Nutze macht. Gleichzei- 
tig wird dieser Sinnüberschuss aber auch von seinen Data Scientists wegge- 
arbeitet. Die Ambivalenz von Daten erweist sich praktisch gesehen als pro- 
duktiver Widerspruch, an den die unternehmerischen Bemühungen der Er- 
zeugung und In-Wert-Setzung von Personendaten anschließen können. 


3 Methode 


3.1 Die Untersuchung von Datafizierung und Algorithmen 


Wie ich bei Earlybird beobachten konnte, gelten Daten immer schon als inhä- 
rent wertvoll. In der Praxis zeigt sich aber, dass diese Annahme sich eher als 
eine notwendige produktive Fiktion erweist: Daten sind keineswegs einfach 
so gegeben, sie müssen in Kooperation mit Nutzerinnen erzeugt werden. Zu- 
dem braucht es zahlreiche Bearbeitungs- und Verarbeitungsschritte, um den 
Daten ihre Geheimnisse zu entlocken, aus Daten produktive Ressourcen zu 
machen und sie in Geschäftsprozesse zu integrieren. 

In meiner Arbeit frage ich, wie Unternehmen überhaupt an Daten kom- 
men - d.h. wie sie Nutzerinnen dazu motivieren, sich innerhalb von Da- 
tafizierungsinfrastrukturen zu »verhalten«, um daraus Daten zu gewinnen. 
Zudem ergründe ich, durch welche Prozesse der Quantifizierung, Kategori- 
sierung, Formalisierung und des Vergleichs aus diesen Daten profitgenerie- 
rende Ressourcen gemacht werden. Was braucht es, um mit Daten möglich 
zu machen, was sie versprechen? Welche Probleme sollen Daten und Algo- 
rithmen lösen? Wie werden diese Probleme benannt und reformuliert? Wie 
werden bestehende Algorithmen ausgewählt, angepasst und verworfen? Wie 
wird ein algorithmisches System zu einem Algorithmus, der als vermeintlich 
unzweifelhaftes, technisch-rationales Orakel in einer Blackbox verschwindet? 
Wie gewinnen findige Unternehmen aus den Verhaltensweisen ihrer Nutze- 
rinnen Daten? Und wie machen sie aus diesen Daten wertvolle und (automa- 
tisch) umsetzbare Einsichten? 

In der empirischen Untersuchung dieser Fragen stütze ich mich auf 
qualitative, ethnografische Methoden (O'Reilly, 2005; Mason, 2002; Emerson 
et al., 2011; Hine, 2017; Pink et al., 2016). Um zu verstehen, wie Daten 
entstehen und wie sie ihren Wert entfalten, kombiniere ich zwei Ansätze 
der »critical algorithm studies« (siehe Kitchin 2016 für einen Überblick 
verschiedener Ansätze), die an die Wissenschafts- und Technikforschung 
anschließen (Seaver, 2019). Zum einen ein »unpacking« soziotechnischer As- 
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semblagen der Datafizierung/Algorithmen, das durch informelle Interviews 
und teilnehmende Beobachtung in einem Unternehmen ermöglicht wurde. 
Und zweitens eine Untersuchung von Bildungsmaterial hinsichtlich der 
Frage, wie Empfehlungssysteme quantifizieren, kategorisieren, vergleichen 
und Relationen zwischen Nutzerinnen und Dingen herstellen. 

Die Untersuchung von Datafizierungsprozessen und Algorithmen ist mit 
verschiedenen Zugangsproblemen konfrontiert (Kitchin, 2016). Datenbanken 
und Algorithmen sind oftmals in den Händen privater Unternehmen, die Al- 
gorithmen als proprietäre Güter betrachten, die es vor neugierigen Blicken 
der Konkurrenz oder der Öffentlichkeit zu schützen gilt. Dateninfrastruk- 
turen sind Blackboxes: Was im Hintergrund passiert, während wir im Web 
shoppen oder uns von TikTok ablenken lassen, ist unserem Blick unzugäng- 
lich. Selbst wenn die Operationen der Datenbanken und Empfehlungsalgo- 
rithmen sichtbar wären, bräuchte es eine Menge an technischer Expertise, 
um zu verstehen, was vor sich geht. Es braucht also spezifische Berechti- 
gungen und Kenntnisse, um Zugang zu erhalten (siehe auch: Burrell 2016). 
Dieses »blackboxing« fußt auf der problematischen Annahme, dass es sich 
bei Algorithmen um singuläre, technische Dinge handle, die von Expertin- 
nen vollständig überblickt und beherrscht werden. Das ist gemäß Nick Sea- 
ver nur bedingt der Fall. Algorithmen sind in ihrem Kontext zu untersuchen: 
Er schlägt vor, Algorithmen als soziotechnische Systeme, »composed of coll- 
ective human practices« zu konzeptualisieren (Seaver 2017, S. 5, auch: Seaver 
2019). 


If we care about the logic of these systems, we need to pay attention to mo- 
re than the logic and control associated with singular algorithms. We need 
to examine the logic that guides the hands, picking certain algorithms ra- 
ther than others, choosing particular representations of data, and transla- 
ting ideas into code [...] My point is that when our object of interest is the 
algorithmic system, »culturak details are technical details — the tendencies 
of an enigineering team are as significant as the tendencies of a sorting al- 
gorithm. (Seaver, 2019, S. 419, Hervorhebung im Original) 


Algorithmen sind Teil von weitaus komplexeren, heterogenen soziotechni- 
schen »Assemblagen« und in soziale wie technische Kontexte eingebettet (Kit- 
chin, 2016). »Algorithmus« bezeichnet in diesem Sinne nicht nur eine tech- 
nische Prozedur, sondern steht als Stellvertreter für ein ganzes soziotechni- 
sches System (Gillespie, 2016), das in der Praxis viel »messier« (Ziewitz, 2016) 
ist als die Mythologisierung einer »power of the algorithm« (Beer, 2017) erah- 


3 Methode 


nen lässt. Algorithmische Systeme als soziotechnische Assemblagen bestehen 
aus zahlreichen, unterschiedlichen, ineinander gefalteten Verfahren, Daten- 
quellen, Standards, Kategorien, etc. Die Folge ist, dass in vielen Fällen nicht 
einmal ihre Erzeugerinnen überblicken oder komplett verstehen können, wie 
bestimmte Resultate zustande kommen (Burrell, 2016). 


Algorithms cannot be adequately studied as stand-alone processes if we 
are to start understanding the roles they now play. But they are also more 
than technical infrastructures — algorithms also need to be recognised more 
broadly as both situated artefacts and generative processes that engage 
in complex ways with their surrounding ecosystems. This is an ecosystem 
that involves technical — software, code, platforms and infrastructure — and 
human designs, intents, audiences and uses more broadly. (Willson, 2017, 
S. 141) 


Für das »unpacking« dieser soziotechnischen Arrangements ist das Haupt- 
problem nicht, dass Algorithmen in Blackboxes verschwinden. Es geht ebenso 
um das allgemeinere Problem der Unsichtbarkeit und der fehlenden »Trans- 
parenz« einer Infrastruktur, die sich als vermeintliche Selbstverstandlichkeit 
der Wahrnehmung weitgehend entzieht (Star, 1999). Krisen und Störungen, 
aber auch eine »methodische Befremdung« (Amann & Hirschauer, 1997), kön- 
nen zu einer »infrastructural inversion« beitragen, d.h. zu einer Aufmerk- 
samkeit für die Arbeit, welche die Infrastruktur erzeugt und erhält (Bowker 
& Star 1999, siehe auch: Hine 2017, S. 23f.). Auch die in Infrastrukturen ein- 
gelassenen Praktiken der Quantifizierung, Kategorisierung, Formalisierung, 
Bewertung und Vergleiche zeichnen sich dadurch aus, dass sie bestimmte 
Dinge unsichtbar und andere dafür sichtbarer machen (Bowker & Star, 1999): 
Unsicherheiten, »messiness« (siehe Mützel et al. 2018), Selbstverständlich- 
keiten und Annahmen (Law, 2009) verschwinden hinter »pristine numerical 
output[s]« wie beispielsweise Credit-Scores (Fourcade & Healy, 2017a, S. 289). 

Susan Leigh Star und Martha Lampland (2009) fordern dazu auf, auf die 
»Infrastruktur zu hören«. Für mich bedeutet das, den Daten während ihrer 
verschiedenen Transformationsschritte zu folgen und diesen Weg durch die 
Infrastruktur zu beschreiben. Welchen Akteuren begegnen die Daten, wie 
verändern sie sich in diesen Begegnungen, wie nehmen sie auf andere Ein- 
fluss und vermehren sich? 

In den Kapiteln 5 sowie 6 bis 8 versuche ich Prozesse der Datafizierung 
zu rekonstruieren, indem ich Operationen der Quantifizierung, Kategorisie- 
rung, Formalisierung, Bewertung und des (algorithmischen) Vergleichs in ih- 
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ren technischen, sozialen, ökonomischen und unternehmerisch-praktischen 
Kontexten berücksichtige. Daraufhin untersuche ich, wie dies zur In-Wert- 
Setzung von Personendaten beiträgt. Es geht dabei um die alltäglichen und 
banalen Tätigkeiten, welche das vermeintlich magische Funktionieren algo- 
rithmischer Systeme ermöglichen. Darüber hinaus geht es um die Selbstver- 
ständlichkeiten, die (unhinterfragten) Annahmen und die manchmal dubio- 
sen’ Praktiken, welche in Datafizierungsinfrastrukturen eingefaltet werden. 
Wie bereits in Kapitel 2 angedeutet, sind Daten und Algorithmen nicht nur 
in verschiedene Kontexte eingebettet. Diese Einbettung ist auch daftir wich- 
tig, wie Daten generiert werden und ihren Wert in der weiteren Anwendung 
entfalten können. 

Ein solcher Fokus geht davon aus, dass Algorithmen nicht einfach auf 
»die Realität« angesetzt werden können, sondern dass Realität und algo- 
rithmische Funktionserfordernisse aufeinander abgestimmt werden müssen 
(Ziewitz, 2017). Daten und Algorithmen repräsentieren die Welt nicht ein- 
fach. Sie öffnen kein Fenster auf die soziale Welt. Daten und Algorithmen 
sind Teil soziotechnischer Arrangements, die soziales Handeln strukturie- 
ren (Marres 2017, S. 22). Algorithmische Technologien sind »interaktiv« (vgl. 
Hacking 2001 zum Verhältnis von Sozialforschung und sozialen Kategorien 
der Beobachtung; MacKenzie 2006 zum Verhältnis von Ökonomie und öko- 
nomischer Theorie bzw. Modellierung): »When the monitoring and analysis 
of everyday activities is used as a basis for intervention into these activities, a 
complex set of exchanges between knowledge and behaviour is set in motion« 
(Marres, 2017, S. 9). 

Datafizierung und Algorithmen sind produktiv: Sie produzieren Einhei- 
ten wie zum Beispiel »Konsumentinnen« (siehe Cluley & Brown 2015; Zwick & 
Denegri Knott 2009), mögliche Verhaltensweisen (Alaimo & Kallinikos, 2017) 
oder Dinge wie »Interessen« (Degeling, 2017). Zudem machen sie »latente« 
Relationen sichtbar und produzieren neue prospektive Relationen (siehe Ka- 
pitel 8). In Bezug auf diese Produktivität von Datafizierungsprozessen und 
Algorithmen verfolge ich eine zweite empirische Strategie. Darin geht es dar- 
um, die technisch-abstrakte Logik von Empfehlungssystemen zu erfassen 
(Kitchin, 2016; Burrell, 2016). Die Frage, wie Standard-Algorithmen wie Colla- 
borative Filtering idealtypisch funktionieren, fußt auf der Untersuchung von 
Ausbildungsmaterial (ein Massive Open Online Course, Handbücher sowie 


1 Siehe zum Beispiel Crawford & Paglen (2019) zu Trainingsdatensätzen, die für Bilder- 
kennungssoftware verwendet werden. 
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Übersichtsartikel zu Empfehlungssystemen) und einem theoretisch geleite- 
ten Nachvollzug von »pseudo-code«. Das Ziel besteht darin, die technische 
Funktionsweise anhand des analytischen Vokabulars der Quantifizierungs-, 
Kategorisierungs- und Vergleichssoziologie aufzuschlüsseln, um zu zeigen, 
wie verschiedene Empfehlungssysteme (formale) Relationen zwischen Nut- 
zerinnen und Dingen (Filme, Artikel, Produkte, etc.) herstellen. 


3.2 Feldzugange 


Wie oben beschrieben ist die soziologische Untersuchung von Algorithmen 
durch mehrere »opacities« (Burrell, 2016) erschwert. Einerseits sind Algorith- 
men technische Konstrukte privater Unternehmen, welche die Funktionswei- 
sen als Geschäftsgeheimnisse betrachten, die es vor den Blicken der Konkur- 
renz und möglicherweise auch vor Kritik zu schützen gilt (Kitchin, 2014). 
Andererseits braucht es zum Verständnis von Algorithmen eine »technical li- 
teracy« (Burrell, 2016), über die normalerweise nur Fachpersonen verfügen. 
Diese Art der Unzugänglichkeit wird durch Heterogenität und Verteiltheit 
verschärft: Algorithmische Systeme bestehen aus Konglomeraten verschie- 
dener Algorithmen und anderer technischer Komponenten, welche von ver- 
schiedenen Akteuren erzeugt, betreut und betrieben werden (Seaver, 2019; 
Kitchin, 2016). 

Mein Forschungsdesign ist dementsprechend als »multisited« (Burrell, 
2009), digitale (Pink et al., 2016; Hine, 2017) Ethnografie konzipiert. Wie Mar- 
cus (2010) hervorhebt, kann sich die zeitgenössische Ethnografie kaum mehr 
um »das Ganze« kümmern, sondern muss strategisch aus den verschiede- 
nen Teilen des Feldes selektieren. Angesichts der »Privatheit« und der tech- 
nischen Unzugänglichkeit von Algorithmen, entschied ich mich für den Fo- 
kus auf zwei »fieldsites«. Der erste Zugang besteht darin, Daten und Algo- 
rithmen in der unternehmerischen Praxis zu untersuchen. Der zweite be- 
fasst sich mit einem dazu komplementären Zugang, welcher die gängigs- 
ten algorithmischen Empfehlungssysteme durch die pädagogische Vermitt- 
lung computerwissenschaftlicher Theorie und praktischer Anwendungsfälle 
erschließt. Angesichts der im Feld angetroffenen Praxis, Computerwissen- 
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schaftler in Ausbildung für algorithmische Projekte zu rekrutieren, ist dieser 
zweite Zugang angebracht.” 


Earlybird und Earlybird Digital 


Earlybird wurde 2005 gegründet. Das Geschäftsmodell basierte schon da- 
mals darauf, die Zielgruppe der Jugendlichen mit verschiedenen Partnerun- 
ternehmen zusammenzubringen, d.h. Jugendlichen gegen eine kleine Mit- 
gliedschaftsgebühr Rabatte bei diesen Unternehmen zu verschaffen. Einige 
Jahre später ging Earlybird Partnerschaften mit mehreren Banken ein und 
wurde damit zum Beziehungsbroker zwischen Jugendlichen, Banken und 
Partnerunternehmen. Die Banken erhalten ein attraktives Programm, um 
Neukundinnen zu akquirieren. Die Partnerunternehmen erhalten Zugang 
zur Zielgruppe der Jugendlichen. Die Jugendlichen erhalten Vergünstigun- 
gen. Seither konnte Earlybird noch mehr Banken als Kundinnen gewinnen 
und seinen »Membern« attraktive »Deals« bei über 600 Partnerunternehmen 
sichern. Zum Zeitpunkt meiner Feldforschung waren mehr als 200 000 aktive 
Member bei Earlybird registriert und 15 Angestellte arbeiteten im Unterneh- 
men. 

Earlybird ist mit mehreren anderen Firmen verbunden. Am wichtigs- 
ten ist die 2015 gegründete Tochterfirma Earlybird Digital, die mit der Pro- 
grammierung des administrativen Systems, der Internetseite und der Mobile 
App beautragt ist. Zum Zeitpunkt meiner Forschung waren dort 14 Personen 
beschäftigt (8 davon als Programmierer und Programmiererinnen in Koso- 
vo). Der wichtigste Kunde von Earlybird Digital ist Earlybird. Die Tochterfir- 
ma offeriert ihre Dienstleistungen (Frontend- und Backendprogrammierung, 
Data-Science-Dienstleistungen) aber auch anderen Kundinnen. 

Zwischen Oktober 2016 und April 2017 war ich als bezahlter »Forschungs- 
praktikant« bei Earlybird und Earlybird Digital angestellt.” Bei der Aushand- 
lung des Zugangs war es für den operativen Geschäftsführer von Earlybird 
wichtig, dass ich meine soziologische Expertise im Unternehmen einbringe, 


2 Eine dritte empirische »fieldsite« war der Besuch von vier Konferenzen der Organisati- 
on »Swiss Cognitive«. Diese versucht, Technologien der künstlichen Intelligenz in Un- 
ternehmen zu etablieren. Dieses Material habe ich nicht ausgewertet. 

3 Nach Abschluss der Feldforschung im engen Sinn folgten weitere Treffen, informelle 
Gespräche und der gemeinsame Besuch einer Data-Science-Konferenz. 
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so wie auch andere Praktikanten und Mitarbeiter ihre unterschiedlichen Fä- 
higkeiten einbringen sollen (fast zeitgleich mit mir begann eine Psychologie- 
studentin mit Interesse für Neuropsychologie ein Praktikum). Im digitalen 
Tochterunternehmen waren zwei Absolventen der Fachhochschule Informa- 
tik angestellt, die sich mit der Datenanalyse und der Programmierung der 
App beschäftigen sollten. Beide wurden von ihrem Professor für Informatik 
mit Schwerpunkt künstliche Intelligenz und Informationssicherheit vermit- 
telt. Dieser sitzt als Miteigentümer im Verwaltungsrat des Tochterunterneh- 
mens und steuert strategische Beratung bei. 

In meiner Rolle als Forschungspraktikant arbeitete ich an verschiedenen 
Projekten mit. Insbesondere an der Planung, Durchführung und Auswertung 
eines »Marktforschungstags«, an welchem 25 Jugendliche in Fokusgruppen 
zu verschiedenen Themen befragt wurden. Als Forschungspraktikant genoss 
ich aber auch die Möglichkeit, an zahlreichen Sitzungen und Treffen teil- 
zunehmen, welche nicht unmittelbar mit meinen eigenen Aufgaben zu tun 
hatten. Das Hauptmaterial meiner Forschung besteht aus Sitzungs- und Ge- 
sprächsprotokollen. Die Beobachtung der individuellen Arbeit steht im Hin- 
tergrund. Mein wichtigster Informant war Nik, der Geschäftsführer von Ear- 
lybird Digital, den ich an verschiedene Sitzungen begleiten konnte und der 
mir in unzähligen informellen Gesprächen geduldig Auskunft gab. 

Die Auswahl von Earlybird und Earlybird Digital war zum einen eine 
Frage des Zugangs: Nur wenige Firmen sind gewillt, ihre Tätigkeiten von 
externen Personen beobachten zu lassen. Earlybird eignete sich zum an- 
deren aber auch deshalb, weil sich das Unternehmen zum Zeitpunkt mei- 
ner Forschung in einem Entwicklungsprozess befand, in dem es eine weit- 
reichende »Digitalisierungsstrategie« verfolgte, um das Geschäftsmodell für 
die Zukunft abzusichern. Andere Firmen, in denen ich explorative Inter- 
views durchgeführt hatte (eine Versicherung und ein grosser Retailer), waren 
diesbezüglich bereits weiter fortgeschritten, in ihren Datafizierungsprakti- 
ken zudem unzugänglicher und hielten sich bedeckter.* Earlybird befand 
sich in einem Prozess der Aushandlung, Etablierung und Institutionalisie- 
rung von Datafizierungspraktiken, der in den anderen Firmen bereits weiter 


4 Siehe auch die Studie von Sami Coll (2015) zu Kundentreueprogrammen der großen 
Schweizer Retailer. Darin beobachtet er, dass die Möglichkeiten der Datenanalyse grö- 
ßer wären als die tatsächlichen, und für die Kundinnen sichtbaren, Anwendungsfälle. 
Gemäß Coll wolle keines dieser Unternehmen vorpreschen und negative Öffentlichkeit 
auf ihre Beobachtungs- und Datafizierungspraktiken lenken. 
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fortgeschritten war. Das eröffnet für den ethnografischen Zugang die Chan- 
ce, Aushandlungs- und Institutionalisierungsprozesse sowie das Ausmerzen 
von Kontingenz in situ mitzuverfolgen. 


Vorgehen und Analyse 

Beobachtungs- und Gesprächsprotokolle, handschriftliche Notizen, analy- 
tische Memos, Dokumente und Fotos bilden mein Datenkorpus (Emerson 
et al., 2011). Eine Schwierigkeit der ethnografischen Vorgehensweise besteht 
darin, dass im Feld immer mehr vor sich geht als sich beobachten und 
beschreiben lässt - so auch in meiner Feldforschung bei Earlybird. Die vielen 
verschiedenen Projekte und Teilprojekte, die gleichzeitig von verschiedenen 
Personen verfolgt wurden, erforderten es, schon während der Feldforschung 
analytische, aus meinem Forschungsinteresse begründete, Fokuspunkte zu 
setzen: Praktiken der Datafizierung, der Kategorisierung von Personen und 
der Auswertung von Personendaten. Im Sinne eines »iterativ-induktiven« 
Vorgehens - d.h. einer wechselseitigen Beeinflussung und Abwechslung 
der Forschungsphasen von Datensammlung, Analyse und ethnografischem 
»writing up« (O'Reilly, 2005) - legte ich schon während der Feldforschung 
die beobachterische und analytische Aufmerksamkeit auf einen Komplex 
von Ereignissen rund um das sogenannte »Datenexperiment« (siehe Ka- 
pitel 5). Dieser Fokus rechtfertigte sich aus dem Forschungsinteresse für 
Datafizierungspraktiken und aus den Relevanzen des Feldes selbst (O'Reilly, 
2.005).? 

Eine entscheidende Einsicht, die sich bereits während der Feldforschung 
einstellte, war, dass Earlybird gemäß eigener Einschätzung nicht über aus- 
reichend Personendaten verfügte und damit kämpfte, solche Daten zu erzeu- 
gen. Das »Datenexperiment« erwies sich als thematischer Kristallisations- 
punkt, der verschiedene Bemühungen, Daten zu erzeugen, Member zu da- 
tengenerierenden Verhaltensweisen zu motivieren und diese Daten irgend- 


5 Ein solches Vorgehen kann sich als übereilt herausstellen, wenn ein solcher Fokus nicht 
den Relevanzen der Teilnehmerinnen im Feld entspricht. Ein für mich ausschlaggebe- 
ner Punkt, der diese Entscheidung rechtfertigte, war eine Entscheidung der Geschäfts- 
leitung, die nach einer Sitzung zum Thema Datenanalyse gefällt wurde. Darin wurde 
die strategische und praktische Relevanz von Daten diskutiert. Im Anschluss beschloss 
die Geschäftsleitung, die Sitzung für abwesende Mitarbeiterinnen zu wiederholen, um 
bei allen ein strategisches Bewusstsein für die Relevanz von Personendaten zu veran- 
kern. 
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wie nutzbar zu machen, für mich, aber vor allem auch für Earlybird, sichtbar 
machte. 

Nach Abschluss der Erhebungsphase erfolgte eine thematisch orientier- 
te Selektion des Materials (Emerson et al., 2011) rund um das Datenexperi- 
ment. Dies umfasste Materialien, welche das Datenexperiment beschreiben, 
aber auch solche, die das Experiment im Kontext von Earlybirds Business- 
modell und Datafizierungspraktiken verständlich machen. Daraus resultier- 
te ein stark reduziertes und übersichtlicheres Korpus, das mithilfe theoreti- 
scher Begrifflichkeiten und emischer Konzepte und Metaphern aufgeschlüs- 
selt wurde. Im Zentrum stand dabei die beschreibende Rekonstruktion des 
Datenexperiments in seinem unternehmerischen Kontext über die Zeit. Das 
resultierende Narrativ findet sich kondensiert in Kapitel 5 und bildet den Aus- 
gangspunkt für eine analytisch-theoretische Aufarbeitung in den Kapiteln 2 
sowie 6 bis 8. 

In der Darstellung der Ergebnisse aus der Feldforschung versuchte ich, 
Beschreibung und Analyse so gut wie möglich auseinanderzuhalten. Da Be- 
schreibung und Analyse aber keine trennscharfen Konzepte sind (O'Reilly, 
2005) gelingt das nicht immer gleich gut. Die eher beschreibenden, für die 
Leserin aufbereiteten Passagen sind jeweils umrahmt und die Fussnoten da- 
zu befinden sich am Ende der Box. 


Generalisierung und Limitationen 

Es ist klar, dass die Datenpraktiken eines verhältnismäßig kleinen und 
lokal-gebundenen Unternehmens wie Earlybird nur begrenzt generalisie- 
rungsfähig sind. Der stetige Vergleich mit größeren und bedeutenderen 
Unternehmen der globalen digitalen Ökonomie mag deshalb stellenweise 
unangebracht wirken. Die von mir entwickelte theoretische Figur der »Mo- 
mente der Datafizierung« beansprucht nicht, ein allgemeingültiges Modell 
der Datafizierung zu sein. Es ist ein analytisches Werkzeug, mit dem sich 
Fragen an die Phänomene der digitalen Ökonomie sowie deren Generierung 
und In-Wert-Setzung von Daten stellen lassen. Zum Beispiel: Wie moti- 
vieren digitale Unternehmen Nutzerinnen dazu, ihre Dienstleistungen zu 
verwenden (Kapitel 6)?° Wie machen Unternehmen Nutzerinnen und ihre ei- 


6 Auch wenn »fehlende Daten« für Unternehmen wie Google vermeintlich kein Problem 
darstellen, lässt sich trotzdem die Frage stellen (und auch tatsächlich empirisch beob- 
achten), wie Google Nutzerinnen zu motivieren versucht, mehr Daten zu hinterlassen: 
Zum Beispiel durch Aufforderungen, Apps zu bewerten, auf Google Maps Fragen zu 
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genwilligen Verhaltensweisen kommensurabel (siehe zum Beispiel Paßmann 
& Gerlitz 2014 zu Twitter) beziehungsweise zu verrechenbaren und vergleich- 
baren Einheiten (Kapitel 7)? Oder: Welche Prämissen und Weltvorstellungen 
werden bei der Verwertung von Personendaten algorithmisch eingefaltet? 
Wie werden Nutzerinnen und Dinge zueinander in Beziehung gesetzt, um 
neue, profitable Relationen zwischen diesen Einheiten abzuleiten (Kapitel 
8)? 


»Introduction to Recommender Systems« 


An Earlybirds Datafizierungspraktiken wird deutlich, dass das Unternehmen 
sich immer auch auf autoritatives Wissen und Praktiken der computerwis- 
senschaftlichen Gemeinschaft bezieht. Der Senior Data Scientist sowie die 
beiden Junior Data Scientists waren während meiner Feldforschungsphase 
selbst in wissenschaftlicher und Lehrfunktion an der lokalen Fachhochschu- 
le tätig. Ein komplementärer empirischer Zugang entstand aus der Feldfor- 
schung bei Earlybird Digital (und auch aus meiner »technical illiteracy«). 
Dani, Junior Data Scientist bei Earlybird Digital, befasste sich in seiner Ab- 
schlussarbeit mit der Entwicklung eines Empfehlungssystems für Earlybird. 
Da es bei Earlybird noch kein produktives Empfehlungssystem gab - aber 
die Logik ihrer Arbeit um die Entwicklung und Implementierung solcher 
Systeme kreiste -, verwies mich Dani auf computerwissenschaftliche Lite- 
ratur und den Kurs »Introduction to Recommender Systems« der University 
of Minnesota, den er selbst auch besuchte. Dieser wird auf der Lernplatt- 
form Coursera angeboten und von Michael Ekstrand und Joseph Konstan 
durchgeführt. Er vermittelt ein Grundverständnis der technischen Funkti- 
onsweise von Empfehlungssystemen und wurde von den Computerwissen- 
schaftlern John Riedl und Joseph Konstan entwickelt. Beide sind für ihre 
wissenschaftliche und unternehmerische Pionierarbeit zu Empfehlungssys- 
temen bekannt - insbesondere im Bereich des Collaborative Filtering (Cohn, 


»locations« zu beantworten oder dem Google Newsfeed schlechte Empfehlungen zu- 
rückzumelden. Oder: Weshalb schickt uns Facebook Emails mit dem Hinweis, dass ich 
eine Nachricht erhalten habe, ohne mir die Nachricht direkt anzuzeigen? Oder stärker 
auf Geschenke bezogen: Weshalb versuchte Facebook, Partnerschaften mit indischen 
Mobilfunkbetreibern einzugehen und Kundinnen ohne»mobile data« Zugang zu Face- 
book zu verschaffen (Bhatia, 2016)? 


3 Methode 


2019). In verschiedenen Kursmodulen demonstrieren sie die Funktionswei- 
sen und Hintergrundannahmen unterschiedlicher Empfehlungssysteme. In 
dazugehörigen Aufgaben werden die Teilnehmerinnen dazu aufgefordert, die 
jeweiligen Berechnungen und algorithmischen Operationen »von Hand«, d.h. 
mithilfe von Tabellenkalkulationsprogrammen selbst durchzuführen. 

Jenna Burrell (2016) zeigt in ihrer Arbeit zu Machine-Learning- 
Algorithmen, dass Bildungsangebote wie Massive Open Online Courses, 
Handbücher und computerwissenschaftliche Artikel zwar keinen Zugang 
zu den komplexen Algorithmen von Google und anderen erlauben, aber 
einen Einblick in die grundsätzliche Logik der technischen Funktionsweise 
von Algorithmen geben (siehe auch: Kitchin 2016). Wie Mirko Schäfer und 
Karin Van Es (2017) hervorheben, geht es nicht darum, Algorithmen und 
deren mathematische Grundlagen bis ins letzte Detail zu verstehen, sondern 
darum, deren grundlegende Logik zu verstehen, um neue analytische (und 
kritische) Perspektiven auf algorithmische Phänomene zu ermöglichen. 

Hier geht es mir darum, die algorithmischen Funktionsweisen zu ver- 
stehen, um die Logiken der Relationierung der unterschiedenen Empfeh- 
lungssysteme sichtbar zu machen: Wie setzen verschiedene Typen von Emp- 
fehlungssystemen Nutzerinnen und Dinge zueinander in Beziehung, um in 
Form von Empfehlungen neue Relationen zwischen Nutzerinnen und Dingen 
herzustellen? 

In einem ersten Schritt arbeitete ich die verschiedenen Kursmodule aus 
einer immanenten Teilnehmerperspektive durch. Danach sammelte und ord- 
nete ich die Materialien des Kurses und seines nahen Verweisungshorizonts 
(i.e. computerwissenschaftliche Literatur). In einem dritten Schritt ging ich 
mit Hilfe eines analytischen Rasters des Vergleichs (Heintz, 2010, 2016) durch 
die Materialien: Wie wird die Vergleichbarkeit von Nutzerinnen oder von 
Dingen hergestellt? Wie und wo wird kategorisiert und bewertet? Was sind 
die (rechnerischen) Operationen des Vergleichs? Wie werden die Resultate 
dargestellt? 

Daraus erstellte ich eine Typologie von Empfehlungssystemen, welche die 
beschriebenen Systeme hinsichtlich ihrer Kategorisierungs-, Bewertungs- 
und Vergleichsweisen ordnet. So lässt sich idealtypisch aufzeigen, wie 
die Systeme Relationen zwischen Dingen, Nutzerinnen und Unternehmen 
generieren. 

Ethnografie ist eine explorative und Theorien generierende Herangehens- 
weise. Auch wenn die genaue Beschreibung, was im Feld vor sich geht, an 
und für sich schon einen Wert hat, stellt sich immer auch die Frage, wie sich 
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anhand der ethnografischen Empirie etwas zeigen lässt, das über das spezi- 
fische Feld hinaus Relevanz hat. Dies versuche ich in den folgenden Kapiteln 
zu tun, in denen ich mithilfe verschiedener Ansätze die theoretische Figur 
der »Momente der Datafizierung« entwickle und an meinem empirischen 
Material illustriere. 

Die ethnografische Analyse von Daten und Algorithmen (und des Digita- 
len) betont die Notwendigkeit, Technologie zu dezentrieren und ihre Einbet- 
tung und Kontextualisierung ernst zu nehmen (Pink et al., 2016, S. 9). Wie ich 
bereits in Kapitel 2 angedeutet habe, stellen Ethnografinnen immer wieder 
fest, dass Daten trotz gegenteiliger Behauptung immer Reste solcher Kontex- 
te anhaften, die sich für die Datenproduktion oder die Datenverwertung als 
problematisch erweisen. Der Kontext der Datenerzeugung und -anwendung 
ist auch im Feld ein Thema (siehe: Seaver 2015) und als Verweisungshorizont 
für die In-Wert-Setzung von Daten von zentraler Bedeutung: Dieser Kontext 
besteht insbesondere in den datengenerierenden Beziehungen zwischen Nutze- 
rinnen und Unternehmen, welche für die Verarbeitung der Daten entfernt 
und unsichtbar gemacht werden müssen - damit sie dann in der Anwen- 
dung wieder wuchern können. Wie das geschieht, zeige ich in den folgenden 
Kapiteln. 


4 Momente der Datafizierung 


4.1 Was uns Pilze über Datafizierung lehren können 


Matsutake Pilze gelten in Japan als Delikatesse. Ihre soziale Bedeutung geht 
aber weit über das Kulinarische hinaus. Es kommt nur selten vor, dass Japa- 
nerinnen Matsutake für sich selbst kaufen. Sie schenken sich die Pilze gegen- 
seitig, um ihren Beziehungen zu Freunden, Familie oder Geschäftspartnerin- 
nen Ausdruck und Bedeutung zu verleihen. Da die Pilze schnell verderben, 
müssen die Beschenkten diese schnell verbrauchen. Sie können deshalb auch 
nicht einfach weiter verschenkt werden. 


[T]here is almost a coercion to accept the relationship it brings. It is impos- 
sible to refuse it without wasting it entirely. That is one reason matsutake 
is sometimes described as a bribe: it forces the receiver to accept the relati- 
onship. (Tsing, 2013, S. 37) 


Der Akt des Verschenkens begründet und erhält gute Beziehungen zwischen 
Beschenkten und Schenkenden. 

Werden die Pilze in Japan verschenkt, sind sie elementarer Teil einer Ga- 
benökonomie. Wie die Anthropologin Anna Lowenhaupt Tsing in ihrer Studie 
zur Warenkette von Matsutake anschaulich darlegt, durchlaufen die Frucht- 
körper des Matsutake in ein paar Tagen mehrere fundamentale Transforma- 
tionen: von Geschenken zu Waren und wieder zurück. Wie kann es sein, dass 
der Status von Matsutake in so kurzer Zeit zwischen diesen beiden entge- 
gengesetzten Wertregimen hin- und herpendeln kann? Wie werden sie zu 
gewöhnlichen, kapitalistischen Gütern, denen keinerlei soziale Beziehungen 
mehr anhaften? Und wie werden sie wieder zu symbolisch aufgeladenen, gute 
Beziehung begründenden, Geschenken? 

Viele der Matsutake, die Japanerinnen und Japaner verschenken und kon- 
sumieren, wachsen in den Kiefernwäldern von Oregon und der chinesischen 
Provinz Yunnan. Diese bieten den Pilzen einen sandigen und von Kiefern- 
streu bedeckten Nährboden, in dem die Pilze in Symbiose mit den Wur- 
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zeln der Baume gedeihen können. Der Pilz lässt sich nicht züchten. Aber 
er gedeiht vor allem dort, wo kaum Humus liegt und der Aufbau von Humus 
durch kommunale Waldnutzung verhindert wird. In solchen menschgemach- 
ten oder anderweitig gestörten Kulturlandschaften siedeln sich Kiefern als 
Pionierpflanzen an. Gerade auf nährstoffarmen Böden ist die Partnerschaft 
von Matsutake und Kiefern vorteilhaft, da der Pilz starke Säuren ausstößt, die 
steinigen oder sandigen Untergrund auflösen und dadurch wichtige Nähr- 
stoffe für die Bäume freisetzen. 

Die Pilze wachsen in Symbiose mit den Kiefern in Wäldern, die von der 
Öffentlichkeit relativ frei genutzt werden dürfen. Der Wald gehört nieman- 
dem beziehungsweise allen: 


Non-timber forest products are notoriously difficult to control as private pro- 
perty, because it is impossible to guard every potentially harvestable forest 
space. Whether or not they are legislated that way, there is more thana whiff 
of the commons in any non-timber forest product. (Tsing, 2013, S. 26) 


Für Anna Tsing stellt sich hier die Frage, wie natürliche und öffentlich zu- 
gängliche Dinge wie Matsutake »privatisiert« werden: Wie werden wild wach- 
sende Pilze zu entfremdeten Waren? Normalerweise, so Tsing, werde in Ana- 
lysen der kapitalistischen Produktionsweise die Existenz von Rohmaterialien 
unproblematisch vorausgesetzt. Sie hält dem entgegen, dass Kapitalistinnen 
viele ihrer verwendeten Ressourcen nicht selbst herstellen können: 


Consider oil and coal, those formerly living products whose formation has 
required so much more time than capitalists can imagine. Capitalists use 
them, but they cannot manufacture them. This is not just true for ancient 
things. Capitalism makes use of animal digestion and plant photosynthesis 
without having any clue how to shape these processes, despite the sophisti- 
cated engineering of plants and animals. In agribusiness, milk and grain 
created in these non-capitalist processes are translated into capitalist value. 
(Tsing, 2015) 


Tsing bezeichnet solche Prozesse, in denen »stuff with other histories of 
social relations (human and not human)« (Tsing, 2015) in Wert gesetzt be- 
ziehungsweise zu kapitalischen Waren gemacht werden, als »salvage accu- 
mulation« - oder in der deutschen Übersetzung: »Verwertungskapitalismus« 


4 Momente der Datafizierung 


(Tsing, 2018, S. 85).’ Es handelt sich um eine Anhäufung von Kapital oder 
Wert über die Aneignung und In-Wert-Setzung von Dingen, die der Kapitalis- 
mus nicht selbst produzieren kann.” »Salvage accumulation« ist der Prozess, 
durch den Unternehmen Kapital anhäufen, ohne dabei die Bedingungen, un- 
ter denen die Güter produziert werden, vollständig kontrollieren zu können. 
Damit ein kapitalistisches Wirtschaftssystem funktionieren kann, so Tsing, 
brauche es ökonomische Vielfalt, d.h. die Gleichzeitigkeit von kapitalistischen 
und nicht-kapitalistischen Wertformen. In ihrer Analyse der Matsutake Lie- 
ferketten betont sie dabei die Zentralität der Übersetzung: unterschiedliche 
Wertformen von Geschenken und Waren werden jeweils von der einen in die 
andere transformiert. 

Aufihrem Weg nach Japan werden die Pilze von Sammlerinnen, Aufkäu- 
ferinnen, Zwischenhändlerinnen und Endabnehmerinnen mehrmals sortiert, 
ohne dass sich an der Materialität der Pilze etwas Grundlegendes verändern 
würde. Weshalb also müssen die Pilze mehrmals statt nur einmal sortiert 
werden? »[V]alue moves in and out of the commodity form«, wie Tsing (2013, 
S. 26) beschreibt: Der Wald und die Arbeit der Sammlerinnen miissen von 


1 Der Begriff beruht auf Marx’ Begriff der »ursprünglichen Akkumulation« (2018). Marx 

bezeichnete mit dem Begriff der ursprünglichen Akkumulation die Basis, auf welcher 
die kapitalistische Ökonomie gedeihen konnte. Er setzte sein Augenmerk insbesonde- 
re auf die Einhegung - sprich: Privatisierung — von öffentlichem, kommunal genutz- 
ten Land, aber auch auf Kolonialismus und Sklaverei, die erst die Funktionsbedingun- 
gen für ein kapitalistisches Wirtschaftssystem geschaffen haben. Die feministisch- 
marxistische Kritik hat in den 1970er-Jahren darauf hingewiesen, dass diese Art der 
Akkumulation über Enteignung keineswegs vorbei ist (siehe Bennholdt-Thomsen etal. 
(1992) zum Begriff der »Hausfrauisierung«). Auch neuere Ansätze — wie beispielsweise 
Klaus Dörres (2013) Konzept der Landnahme - rückten die Fragilität des Kapitalismus 
ins Zentrum: Der Kapitalismus ist auf ein nicht-kapitalistisches Aussen angewiesen, 
das durch ständige Landnahmen kolonisiert werden kann. Indem neue Ressourcen 
einverleibt werden, kann sich der Kapitalismus erhalten und neue Möglichkeiten der 
Profiterzeugung generieren. David Harvey (2003) spricht hier von »accumulation by 
disposession«. 
Tsing grenzt sich vom marxistischen Verständnis ab, weil sie sich auf eine aktuelle 
Instanziierung des Kapitalismus fokussiert, die nicht durch die Rationalisierung in- 
dustrieller Produktion (i.e. Arbeit und Rohstoffe) gekennzeichnet ist, sondern durch 
Lieferketten und Übersetzungsprozesse zwischen den verschiedenen Räumen. Tsing 
betont zudem die Unabgeschlossenheit von »salvage accumulation« gegenüber der 
ursprünglichen Akkumulation, die Marx nicht als anhaltenden Prozess definiert. 

2 Ich versuche zu vermeiden, Abstraktionen als Akteure zu bezeichnen, übernehme hier 
aber die Formulierung von Tsing. 
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den Pilzen entfernt werden, um sie zu Waren zu machen. Sobald die Pilze 
in Japan ankommen, sind sie vollständig kommodifizierte Waren, die aber 
wieder in Geschenke transformiert werden. Sowohl die erste Transformati- 
on von Geschenk zu Ware als auch die zweite Transformation von Ware zu 
Geschenk geschieht über Prozesse des »Sortierens«. 

Bevor die Matsutake sich auf den Weg nach Japan machen, werden sie 
zwei mal sortiert: einmal von den Aufkäuferinnen und einmal von den Groß- 
händlerinnen. Weshalb müssen die Pilze zweimal sortiert werden? Es liegt 
nicht daran, dass die Käuferinnen schlecht sortieren würden. Sie kennen die 
Pilze sicherlich besser als die Hilfsarbeiterinnen, welche die zweite Sortie- 
rung vornehmen. 

Die Sammlerinnen von Matsutake beschreiben ihre Tätigkeit nicht als Ar- 
beit, sondern als Varianten der »Freiheit« - je nachdem, ob es sich bei den 
Sammlerinnen um laotische Khmer, vietnamesische Hmong oder amerika- 
nische Vietnamveteranen handelt. Tatsächlich ist »Freiheit« für diese unter- 
schiedlichen Sammlerinnen in Kalifornien sehr stark mit der Erfahrung des 
indochinesischen Kriegs verbunden. Diese semantische Aufladung verbindet 
sich spätestens dann mit der US-amerikanischen Kultur und Spielart des Ka- 
pitalismus, wenn Sammlerinnen und Aufkäuferinnen zusammentreffen: 


Freedom means different things to participants with different communal 
agendas. It can be freedom of war or freedom from war. It can be freedom to 
remember or freedom to forget. Mushroom hunters comb the forests, follo- 
wing these forms of freedom. Butthey come together as a public in the buy- 
ing tents, where hunters of every ethnic background arrive to sell theirmush- 
rooms. In the buyers’ tents, freedom takes on new border-crossing meanings 
for everyone. At the moment of a buyer’s performance, it is also the freedom 
of money, competition, and the market economy. It is the freedom promi- 
sed by the intersection of US political culture and capitalism. The freedom 
to live out one’s trauma in the forest is united with the freedom of dollar 
bills. (Tsing, 2013, S. 29f.) 


In den Verkaufszelten spielen die Beziehungen zwischen Aufkäuferinnen, 
Sammlerinnen und Pilzen: Der Akt des Kaufens und Verkaufens ist kein rei- 
ner Tauschakt, sondern mit bestehenden Vertrauens- und Konkurrenzbezie- 
hungen verquickt. Erfolgreiche Sammlerinnen aber auch Käuferinnen erwei- 
sen sich als geschickte Strateginnen - vor allem, wenn die Pilze einer Samm- 
lerin von der prospektiven Käuferin sortiert werden. Die erste Sortierung ist 
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eine Zelebrierung und eine Aufführung der Freiheit, in welcher der Verkauf 
und Kauf von Pilzen bloß einen Nebenschauplatz einnimmt: 


Mushroom hunters are independent and come to the hunt for their own pur- 
poses. When they sell the mushrooms to buyers, they offer a part of them- 
selves, which one might call a gift. Indeed, perhaps the gift is the essential 
part of the transaction; the commercial part is to the side. Just as exchanges 
of armbands and necklaces anchor the Melanesian kula, with pig and yam 
transactions on the side, gifts of personal experience and sociality-in-the- 
making hold together the matsutake hunt. (Tsing, 2013, S. 25) 


Das Sortieren der Pilze ist ein öffentlicher, performativer Akt, in dem der 
Wert der Pilze entsteht. Besonders schöne, große oder hochwertige Pilze wer- 
den zu »Trophäen der Freiheit«, denen die Erfahrung der Jagd innewohnt: 
Sowohl diejenige der Sammlerin, die den Pilz aufgespürt hat, als auch die- 
jenige der Käuferin, die ihn vor den anderen Käuferinnen erwerben konnte. 
Im Sortieren der Pilze verwickeln sich Sammlerinnen mit Käuferinnen und 
Pilzen. Darin besteht der Wert von Matsutake unter den Verkaufszelten am 
Waldrand. 


The sorting creates trophy value: the pride ofthe hunt. Trophy value requires 
that the experience of obtaining the thing remain in the thing. Trophy value 
holds for the buyer as well as for the hunter. Buyers are still exclaiming over 
the beauty and abundance of their mushrooms when they close the lids of 
the plastic crates and load them into bulkers’ trucks. This is still a moment 
of competitive jostling; the buyer could sell to a different bulker. Freedom 
is still being dramatically performed, creating a field of open-ended social 
obligations and alliances. (Tsing, 2013, S. 31) 


In den Verkaufszelten finden ökonomische Transaktionen statt. Es ist aber 
nicht die ökonomische Logik und der Austausch von entfremdeten Waren, 
welche die Geschehnisse in den Verkaufszelten bestimmen. Gemaf Tsing 
geht es primar um die dramatische Darstellung von Freiheit und die Bezie- 
hungen zwischen Kauferinnen, Sammlerinnen und Pilzen: Der Wert der Pilze 
liegt in diesen relationalen Qualitaten, nicht in ihrem monetaren Wert. So- 
gar die 100-Dollar-Noten werden in dieser Logik zu Trophaen der Freiheit. 
»The crated mushrooms are not yet a capitalist commodity, disengaged from 
human labor. They still extend relational tentacles—the value regime of gifts« 
(Tsing 2013: 31). 
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Die Aufkäuferinnen bringen die Pilze zu Großhändlern, wo sie ein zweites 
Mal sortiert werden. Dieses Mal sortieren Arbeiterinnen, die weder einen per- 
sönlichen Bezug zu den Pilzen noch ein Interesse an ihnen haben. Sie machen 
die Pilze dadurch zu einer akzeptablen, standardisierten Exportware, der kei- 
ne Relationen zu den Sammlerinnen und Aufkäuferinnen mehr innewohnt. 
Für einige Stunden - die Dauer des Exports nach Japan - sind die Pilze 
nun Inventar, das Kalkulation erlaubt. So kann auch in nicht-kapitalistischen 
Wertsystemen Wert beziehungsweise Profit erzeugt werden (Tsing, 2018, S. 
181). 


Diese sorgfältig gekühlten, verpackten und sortierten Pilze sind durchaus 
kapitalistische Handelswaren. Sie sind so sehr für sich stehende, entfrem- 
dete Objekte, wie es nur möglich zu sein scheint: Da sie lediglich das Land 
des Exporteurs auf den Etiketten aufweisen, hat kein Mensch eine Ahnung 
von den Bedingungen, unter denen sie gesammelt und verkauft wurden. Als 
Ware haben sie keine Verbindung zu den Menschen mehr, die sie zuvor be- 
wundert und getauscht haben. Sie sind Inventar: Vermögenswerte mittels 
derer die Importeure ihre Firmen aufbauen. (Tsing, 2018, S. 174) 


Damit hört das Sortieren aber nicht auf. Sobald die Pilze in Japan ankommen, 
beginnt es von Neuem. Tsing beobachtete, dass sich die japanischen Impor- 
teure nicht als neutrale und effiziente Wegstelle auf dem Weg der Matsutake 
sehen. Sie sind »aktive Vermittler«, welche die Passung von Käuferin und 
Pilzen anstreben. Einer ihrer Informanten beschreibt die Großhändler als 
»Kuppler«: »Sie möchten ihre Matsutake an den für eine bestimmte Charge 
geeignetsten Käufer verkaufen« (Tsing, 2018, S. 175). Auch Zwischenhänd- 
lerinnen und Endabnehmer statten die Pilze wieder mit »relationalen Ten- 
takeln« aus: Die Matsutake so zu sortieren, dass sie jene mit der richtigen 
Qualität mit den richtigen, dazu passenden, Käuferinnen zusammenbringen 
können, ist zentral. So werden die Pilze wieder zu geschenkartigen Dingen, 
die Beziehungen stiften können. Darin besteht ihr Wert - und nicht bloß in 
ihrer Verwendung oder in ihrem Tauschwert (Tsing, 2018, S. 177). 


4.2 Von Gabe zu Ware - und zurück 


Anna Tsing zeigt in ihrer Analyse der Lieferkette von Matsutake, dass Sor- 
tierung ein Vorgang ist, der Dinge transformiert. Wenn die Aufkäufer die 
Pilze in den Waldcamps von den Sammlerinnen erwerben, ist ein Teil davon 
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noch ein Geschenk: »When [the mushroom hunters] sell the mushrooms to 
buyers, they offer a part of themselves, which one might call a gift« (Tsing, 
2013, S. 25). In der kurzen Zeit, in welcher die Pilze im Flugzeug nach Ja- 
pan reisen, sind die Matsutake Waren, die von ihren Beziehungen zwischen 
Sammlern und Aufkäuferinnen sowie ihrem Status als kollektives Gut befreit 
wurden. Sobald die Pilze in Japan ankommen, werden sie wieder von Waren 
zu Geschenken. Dazwischen stehen jeweils Prozesse des Sortierens. 

Sortierung ist ein zentraler Vorgang, der aus der oszillierenden Trans- 
formation der Dinge zwischen Geschenk und Ware Wert produziert. Tsing 
verwendet die klassische anthropologische Unterscheidung zwischen Waren 
und Gaben, auch wenn sie keine absolute Differenz zwischen Waren- und 
Gabenökonomie postuliert. Eine kapitalistische Ökonomie ist vielmehr dar- 
auf angewiesen, dass Waren nicht vollständig von allen Beziehungen gelöst 
sind, ihnen also stets noch »gift-like qualities« anhaften. 

Die analytische Dichotomie von Gaben- und Warenökonomie erlaubt es 
Tsing, zu sehen, dass nicht-kapitalistische soziale Beziehungen für kapitalis- 
tische Güter konstitutiv sind. Dementsprechend betont sie die »messiness« 
des Kapitalismus. Dieser steht nicht für eine in sich kohärente Logik, sondern 
benötigt geradezu ökonomische Heterogenität. Das ist die Lektion, die Tsing 
uns anbietet: Um zu verstehen, wie Matsutake zu Waren beziehungsweise 
»Inventar« werden, müssen wir verstehen, wie und durch welche Prozesse 
der Sortierung Matsutake von ihren sozialen Relationen befreit und wieder 
darin verstrickt werden. 

Tsings Verständnis von Sortierung ist in seiner Bedeutung relativ unspe- 
zifisch. Wie gesehen, funktioniert Sortierung in beide Richtungen: vom Ge- 
schenk zur Ware und von der Ware zum Geschenk. Die erste Sortierung in 
den Verkaufszelten am Waldrand verknüpft die Pilze mit sozialen Relatio- 
nen, in welchen sie getauscht werden, und generiert daraus Wert. Die zweite 
Sortierung entfernt diese Relationen und macht aus den Pilzen »Inventar«. 
In der dritten Sortierung »personalisieren« Verkäuferinnen ihre Pilze wieder- 
um, indem sie diese prospektiv nach geeigneten Abnehmerinnen einteilen. 
Sortierung kann die Dinge also sowohl »gift-like« als auch »commodity-like« 
machen. Mit anderen Worten lässt sich deren Wert über soziale Beziehungen 
oder gerade über deren Abwesenheit begründen. 

Sortierung lässt sich bei Tsing als Prozess der Kommodifizierung lesen. 
Sie beruft sich auf Marx, der in der Entfremdung den entscheidenden Aspekt 
der Warenwerdung sieht: »[For Marx,] alienation defined capitalist commo- 
dities, which ideally retained no element of workers’ personal engagement 
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when they went to market« (Tsing, 2013, S. 24). Entfremdung ist aber nicht 
so einfach zu erreichen, wie es scheint. Denn Arbeiterinnen — insbesondere 
Selbständige - versehen ihre Arbeit nicht selten mit Sinn und Bedeutung. In 
einer Form des Kapitalismus, die Tsing »supply chain capitalism« nennt, ist 
es schwieriger, Arbeiterinnen beziehungsweise Selbständige von den Früch- 
ten ihrer Arbeit abzulösen: 


Independent contractors work not for wages but for themselves. They may 
consider themselves entrepreneurs, imagining their skills as >capital«; they 
may accept contracts at a loss because they are thinking of potential oppor- 
tunities. Unlike the free labor of early English industrialization, independent 
contractors are difficult to separate from the products of their labor. Without 
alienation, the products urge further social relations. (Tsing 2013, S. 25, meine 
Hervorhebung) 


Idealtypische Waren sind von ihren Erzeugerinnen abgelöst, d.h. konkrete 
Personen spielen keine Rolle. Sie können ausgetauscht werden. Nach dem 
Tausch kann die Ware weiter getauscht oder gebraucht werden, ohne dass 
neue Verpflichtungen daraus entstehen. Die Schritte, die zum Tausch geführt 
haben, können vergessen werden. Der Tausch einer Ware ist ein »diskreter 
Akt« (Kopytoff, 1986, S. 69f.). Nicht so beim Geschenk. »Gifts [...]are akin to 
persons; they bring something personal with them, drawing the receiver into 
a social field, and serving as a continual reminder of the need for reciproca- 
tion« (Tsing, 2013, S. 22). 

Für Tsing ist Sortierung - je nach Zeitpunkt in der Lieferkette - auch ein 
Prozess der Entkommodifizierung, der Pilze (wieder) in sozialen Relationen 
verknüpft. Sortierung lässt sich als Transformation begreifen, welche die Re- 
lationen zwischen Personen, Unternehmen und Dinge zum Wuchern bringt, 
diese Relationen aber auch eindämmt. 


4.3 Von der Handlung zum Datum - und zurück 


Matsutake werden nicht für den Markt produziert. Sie lassen sich nicht züch- 
ten wie beispielsweise Champignons und andere Speisepilze. Sie wachsen 
nur unter bestimmten Umständen: In der chinesischen Yunnan-Region ver- 
hindert die menschliche Nutzung des Walds, dass sich eine reiche Humus- 
schicht bilden könnte. Ansässige Bewohnerinnen sammeln und verwerten 
Fallholz, Tannenzapfen oder Reisig. Erst die Kombination bestimmter Baum- 
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arten mit nährstoffarmen Böden lassen Matsutake spriessen. Diese Kombi- 
nation lässt sich zwar durch menschliche Bemühungen fördern, aber nicht 
erzwingen, wie die vergeblichen Zuchtversuche nahelegen. 

So wie Matsutake für ihr Gedeihen auf eine Verwicklung verschiedener 
Akteure angewiesen sind, ist auch die Datafizierung von Verhaltensweisen 
das Resultat einer Verwicklung von Personen, Verhaltensweisen, Unterneh- 
men sowie technischen und sozialen Infrastrukturen (Helmond, 2015). Nor- 
malerweise handeln Menschen nicht, um Personendaten zu erzeugen.’ Ich 
kann »meine« Daten weder »geben«, noch kann sie ein Unternehmen einfach 
»nehmen«.* 

Wenn ich auf Instagram den Post eines Hühnereis like, wem gehört dann 
das Datum »User-Markus mag Instagram-Egg«? Ich selbst habe zwar wesent- 
lich zur Entstehung dieses Datums beigetragen, indem ich zwei Mal schnell 
auf das abgebildete Ei tippte, so dass ein rotes Herz in der Mitte des Bil- 
des erschienen ist. Das Datum ist also Resultat meiner Handlung. Bin ich 
auch Eigentümer des Datums »User-Markus mag Instagram-Egg«? Mindes- 
tens genau so evident zu sein scheint, dass das Unternehmen Meta Plat- 
forms - das Instagram betreibt - dieses Datum sein Eigen nennen kann: 
Ohne die Instagram-App, der vorprogrammierten Handlungsmöglichkeit des 
Likes, ohne andere Nutzerinnen, die Vorschlagsfunktionen und Ordnungs- 
leistungen von Instagram wäre ich gar nicht in der Lage, auszudrücken, dass 
ich das »Instagram-Ei« mag. Dieses Datum würde ausserhalb der Infrastruk- 
tur von Instagram nur wenig Sinn ergeben. Das Instagram-Egg zu mögen ist 
ohne die Infrastruktur der Plattform Instagram und dem kulturellen Kontext 


3 Abgesehen möglicherweise von Expertinnen der Selbstquantifizierung (Unternährer, 
2016; Neff & Nafus, 2016). 

4 Im Mai 2018 ist die Datenschutzgrundverordnung (GDPR) der EU in Kraft getreten. Sie 
beinhaltet ein »Right to Data Portability«: »the data subject shall have the right to have 
the personal data transmitted directly from one controller to another, where techni- 
cally feasible« (GDPR Art. 20(2)). Die technische Kompatibilitat verschiedener Platt- 
formen ist dabei wohl das kleinste Hindernis. Solange Personendaten im engen Sinne 
als soziodemografische Daten verstanden werden, ist das Problem trivial. Sobald aber 
personliche Kommunikation mit anderen Plattformnutzerinnen, plattformspezifische 
Aktivitaten — wie zum Beispiel »retweeten« oder »anstupsen« — hinzukommen, sind 
weitere Nutzerinnen und plattform- und kontextspezifische »Aktionen« involviert, die 
nicht ohne Weiteres übersetzt werden können. Bedeutet »retweet« das Gleiche wie 
»share«? Ironischerweise bietet das Recht auf Datenportabilität damit Hand zu einer 
verstärkten Kommodifizierung von persönlichen Daten. 
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der Debatte um den Einfluss von Social Media und Influencerinnen bedeu- 
tungslos.° Andererseits nützen digitale Infrastrukturen und vorstrukturierte 
Handlungs- und Kommunikationsangebote nur wenig, wenn keine Nutzerin- 
nen da sind, die durch die Nutzung dieser Infrastrukturen Daten erzeugen.° 
Der Rechtswissenschaftler Daniel Solove (2008) argumentiert, dass die Frage 


des Eigentums in Bezug auf Personendaten nicht einfach zu entwirren ist: 


there are problems with viewing personal information as equivalent to any 
othercommodity. Personal information is often formed in relationships with 
others. All parties to that relationship have some claim to the information. 
For example, individuals are not the lone creators of their web-browsing in- 
formation, for most of that information is created from the interaction bet- 
ween the user and websites. (Solove, 2008, S. 27) 


Weder Nutzerinnen noch Unternehmen können je für sich Personendaten 
erzeugen. Der Fokus auf datensammelnde Techgiganten wie Google, Face- 
book, Amazon, etc. versperrt den Blick darauf, dass Personendaten nicht ein- 
fach schon immer da sind. Aufgrund ihrer Monopolstellung (Srnicek, 2017) 
sind diese Firmen Teil einer Infrastruktur des Alltags, der sich einfache End- 
nutzerinnen nur schwierig entziehen können. Trotzdem halte ich es für an- 
gebracht, Personendaten nicht als etwas zu betrachten, das problemlos ge- 
sammelt, angeeignet oder produziert werden könnte. Denn Personendaten 
entstehen aus Verwicklungen von Unternehmen und Nutzerinnen. 

Wie ich während meiner Feldforschung lernte, ist es alles andere als ein- 
fach, Personendaten in ausreichender Menge und Qualität zu generieren. 
Simpel gesagt: Wer mit einer App Daten sammeln will, braucht Nutzerin- 
nen, welche die App herunterladen, sie benutzen - und zwar wiederholt. 
Um in der Metapher der Pilze zu bleiben: Personendaten lassen sich nicht 
züchten. Ihre Entstehung und In-Wert-Setzung ist von unternehmerischen 
Interventionen abhängig, die aber keine Garantie für deren Gedeihen bieten. 
Greg Elmer bemerkte in Bezug auf Konsumentendatenbanken: »consumer 
»surveillance< is predicated on the active solicitation of personal information 


5 Der am 4. Januar 2019 erschienene Post thematisierte die Plattform und die damit 
verbundene Praxis des Likes, indem er dazu aufrief, den von Kylie Jenner erreichten 
Rekord von 18 Millionen Likes zu überbieten. Der Erfolg des Posts löste eine Debatte 
zur Aufmerksamkeits- und Influencerkultur von Instagram aus. 

6 Zu Nutzeraktivitäten auf Social Media als Arbeit siehe Ekbia & Nardi (2017, Ch. 5) und 
Fuchs (2014, Ch. 11). 
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from individuals in exchange for the promise of some form of reward« (El- 
mer 2004, S. 73, meine Hervorhebung). 

Marion Fourcade und Daniel Kluttz (2020) bieten eine sozialanthropo- 
logische Perspektive auf Daten, die Marx’ ursprüngliche Akkumulation und 
Harveys »accumulation by dispossession« um eine »accumulation by gift« 
ergänzt. Sie setzen den kolonialen, gewaltvollen Akkumulationsstrategien, 
durch die Gemeingüter und »human life itself« aneignet und kommodifi- 
ziert werden (Couldry & Mejias, 2019b; Thatcher et al., 2016), entgegen, dass 
»enticement and enrolment into digital systems presents itself, and is of- 
ten experienced as a much more benign process« (2020, S. 1). Tatsächlich 
sind Unternehmen oftmals bemüht, die Beziehungen zu ihren Datenliefe- 
ranten — sprich: Nutzerinnen - so zu gestalten, dass sie ihre Daten oder ihre 
Arbeit gerne und freiwillig hergeben und dies auch in Zukunft tun werden. 
Das Bonmot »If something's for free, you're the product« übersieht, was ich in 
meiner Feldforschung direkt beobachten konnte: Auch wenn Nutzerdaten als 
zentrale Ressource und Quelle zukünftiger Profitabilität gelten, behandelte 
das Unternehmen seine Nutzerinnen nicht bloß als Mittel zum Zweck, son- 
dern als Kunden, die zufriedengestellt werden müssen, auch wenn sie nicht 
bezahlen. Was die Marketingexperten Philip Kotler und Kevin Keller als gute 
Marketingpraxis propagieren, wendet Earlybird auch auf seine Nutzerinnen 
an: »Marketing practice today must go beyond a fixation on transactions that 
often leads to a sale today and a lost customer tomorrow. The marketer’s goal 
is to build a mutually profitable long-term relationship with its customers, 
not just sell a product« (Kotler, 2003, S. XIII). »Customer relationships« soll- 
ten im Marketing zentral sein: »Marketers must connect with customers - in- 
forming, engaging, and maybe even energizing them in the process« (Kotler 
& Keller, 2006, S. 139). 

Will Oremus (2018) argumentiert hinsichtlich Techgiganten ebenso in die- 
se Richtung: 


Cynics might not believe it, but Google and Facebook didn’t adopt the free 
model in order to serve advertisers. On the contrary, they adopted the adver- 
tising model as a way to keep serving their users for free. Google did so only 
with great reluctance; its founders had criticized advertising-based search 
engines as inherently biased towards the advertisers and away from the 
needs of consumers.< [...] These companies’ massive scale may allow them 
to absorb backlashes like the #DeleteFacebook campaign better than, say, a 
luxury-goods brand could. Yet they still have a hard job in appealing to huge 
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numbers of people enough to keep them coming back and spending their 
leisure time. (Oremus, 2018) 


Geschenke - d.h. kostenlose Dienstleistungen, Angebote oder Free- 
bies - spielen in der digitalen Ökonomie eine zentrale Rolle. Dort sind 
»user retention«, »user engagement« und Steigerung der Anzahl von Nut- 
zerinnen zentrale ökonomische Indikatoren. Wie Dave Elder-Vass (2016) 
argumentiert, ist die digitale Ökonomie heterogen: In der digitalen Öko- 
nomie und der »Silicon Valley culture« sind nicht nur Formen des Markts, 
sondern auch verschiedene Formen der Gabenökonomie anzutreffen (Four- 
cade & Kluttz, 2020): »opportunities for gift forms of economy abound« 
(Elder-Vass, 2016). In Kapitel 6 zeige ich, wie das Unternehmen Earlybird 
versucht, sich selbst und seine Nutzerinnen in reziproke Relationen zu 
verwickeln, in welchen Geschenk und Gegengeschenk von Personendaten 
zusammenfallen. 

Während ich in Kapitel 6 auf die Frage eingehe, wie Personendaten aus 
der unternehmerischen Organisation eines Gabentausches hervorgehen, ist 
Kapitel 7 den Eigenschaften von Personendaten gewidmet. Ich gehe von der 
Beobachtung aus, dass sich Personendaten analog zu Gaben und Waren ver- 
halten beziehungsweise zugleich Eigenschaften von Gaben und Eigenschaf- 
ten von Waren aufweisen. Die Produktivität von Personendaten besteht gera- 
de in dieser Gleichzeitigkeit von Entfremdung und Unentfremdbarkeit bezie- 
hungsweise in ihrer singulären, situierten Echtheit oder in ihrer generischen 
Vergleichbarkeit. 

Der Wert von Ware und Geschenk kommt auf unterschiedliche Weise zu- 
stande. Der Wert einer Ware entsteht aus ihrem Gebrauchs- und aus ihrem 
Tauschwert. Der Wert eines Geschenkes besteht in den sozialen Relationen, 
die es begründen und auf Dauer halten: 


They thus animate different systems of value: Value ina commodity system 
is in things for use and exchange. Value in a gift system is in social obligati- 
ons, connections, and gaps. (Tsing, 2013, S. 22) 


Diese Unterscheidung ist zwar analytisch einleuchtend, doch empirisch 
schwierig zu trennen. Geschenkrelationen und Warenökonomie sind nicht 
»hostile worlds« (Zelizer, 2012): Persönlichen Beziehungen und die unper- 
sönliche Abstraktheit der Warenökonomie greifen empirisch gesehen immer 
wieder ineinander. »[M]oney commodity and gift relations [can] exist in 
symbiosis« (Barbrook 1998, zitiert in: Fourcade & Kluttz 2020, S. 4). In Tsings 
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Analyse sind gerade diese ökonomische Heterogenität und die Wechsel 
zwischen Wertregimes das Entscheidende: Es braucht beides. Das wird im 
Versuch, Personendaten zu »assets« zu machen, deutlich. 

Geschenke sind mit der gebenden Person? und ihren Qualitäten verbun- 
den: »présenter quelque chose à quelqu'un c’est présenter quelque chose de 
soi« (Mauss, 1923, S. 49). Das grenzt sie von Waren ab, denn Dinge werden 
über »alienation« zu Waren: »Commodities are here understood as objects, 
persons, or elements of persons which are placed in a context in which they 
have exchange value and can be alienated. The alienation of a thing is its 
dissociation from producers, former user, or prior context« (Thomas, 1991, S. 
39). 

Personendaten sind seltsame Dinge. Sie lavieren zwischen kommodifi- 
zierten Waren und unkommodifizierbaren Geschenken. Einerseits gelten sie 
als objektive Fakten. Sie können gekauft, gestohlen oder mit anderen Daten 
kombiniert werden. Andererseits wohnt ihnen etwas Unentfremdbares inne: 
Sie sind an ihre Erzeugerinnen gebunden. Personendaten sind also generisch 
und singulär zugleich. Sie entstehen in digitalen Infrastrukturen, die subjek- 
tiv unterschiedliche Handlungen technisch gleich erfassen. Das heißt, sie be- 
ruhen auf echten, situierten Verhaltensweisen von Individuen, werden durch 
digitale Infrastrukturen aber generisch und vergleichbar gemacht. Das ist das 
Rätsel von Personendaten: Sie funktionieren gleichzeitig als Waren und als 
Gaben. Sie machen subjektiv unterschiedlichste Verhaltensweisen vergleich- 
bar, verweisen aber immer auf ihre Urheberinnen, ihre Intentionen, Interes- 
sen und Identitäten. In Personendaten darf nicht zu viel und nicht zu wenig 
der Person stecken. 

In den Kapiteln 6 bis 8 möchte ich drei Momente der Datafizierung 
hervorheben, in welchen Personendaten als wertvolle Ressourcen entstehen 
und zur Anwendung kommen. Obwohl die Momente potenziell weitgehend 
gleichzeitig stattfinden, zeigt mein empirisches Beispiel eines Datenex- 
periments bei Earlybird, dass insbesondere zu Beginn die drei Momente 
sequenziell aufeinander aufbauen, um den »reciprocity cycle« zu starten, 
aus dem Personendaten hervorgehen (Fourcade & Kluttz, 2020). 

In einer ersten Phase geht es darum, Unternehmen und Nutzerinnen mit- 
einander zu verwickeln, indem Nutzerinnen dazu verlockt werden, Geschen- 
ke anzunehmen. Die Gegenleistung der Nutzerinnen besteht bereits in der 


7 Bei Mauss sind es nicht Einzelpersonen, sondern Kollektive. 
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Annahme des Geschenks, da dessen Annahme in der Dateninfrastruktur re- 
gistriert wird und Personendaten generiert. In der zweiten Phase geht es dar- 
um, »echte« Verhaltensweisen vergleichbar zu machen. Dazu bedarf es einer 
»Reinigung« der Daten: Die Sinnüberschüsse echter, singulärer Verhaltens- 
weisen müssen entfernt oder technisch ignoriert werden. Dadurch werden 
Verhaltensweisen erst zu Daten, die »algorithm ready« sind (Gillespie, 2014, S. 
170f.) beziehungsweise mit denen gerechnet werden kann. Aus bedeutungs- 
vollen Verhaltensweisen von Nutzerinnen werden formalisierte, technische 
Relationen zwischen Nutzerinnen und Dingen. In der dritten Phase zeigt 
sich dann, was mit Daten möglich ist: »social sorting« (Lyon, 2003) ist die 
unternehmerische Praxis, über datenbasierte Kategorisierung und Verglei- 
che »good matches« - gewöhnlich »Personalisierung« genannt - zwischen 
Nutzerinnen und Dingen herzustellen, um so die Beziehung zwischen Un- 
ternehmen, Nutzerinnen und Kundinnen am Laufen zu halten. 

Auch Anna Tsing unterscheidet in ihrer Analyse drei Momente, durch die 
Kiefernpilze als wertvolle Geschenke und Güter konstruiert werden. Das per- 
formative Sortieren in den Verkaufszelten im Wald verwickelt die Pilze mit 
Sammlerinnen und Käuferinnen. Den zweiten Sortiervorgang benennt Tsing 
als »alienation assessment«, in welchem diese Beziehungen entfernt und die 
Pilze zu einer austauschbaren Ware werden. Der dritte Sortiervorgang über- 
führt die Pilze wieder in das Wertregime des Geschenks. Sie werden so sor- 
tiert, dass sie Beziehungen knüpfen und erhalten können. Sortierung kann 
also sowohl soziale Kontexte und Beziehungen reduzieren und unsichtbar 
machen als auch die Beteiligten in (neue) Beziehungen verwickeln. 

Die Datafizierung von Verhaltensweisen umfasst ebenso drei analytisch 
unterscheidbare Momente, in denen soziale/ökonomische Beziehungen in 
Datenrelationen verwandelt werden, um den Kreislauf von guten Beziehun- 
gen, Datenerzeugung und Ableitung neuer (guter) Relationen in Gang zu 
bringen und am Laufen zu halten. 


1. Die Verwicklung von Unternehmen und Nutzerinnen: Erstens stiftet und erhält 
der Klick eine soziale/ökonomische Relation zwischen Nutzerinnen und 
Plattform-Unternehmen: Nutzerinnen werden nicht als passive Daten- 
lieferanten vorgestellt, sondern als aktive und manchmal widerspensti- 
ge Teilnehmer, die es mit passenden Angeboten und »inducement gifts« 
auf der Plattform zu halten gilt, damit sie weiter Daten generieren. Mo- 
mente der Datafizierung konfigurieren den sozialen/ökonomischen Aus- 
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tausch so, dass das Geschenk (zum Beispiel ein Sonderangebot) und das 
Gegengeschenk (Personendaten) beziehungsweise Leistung und Gegen- 
leistung zusammenfallen. Um überhaupt Daten produzieren zu können, 
müssen Nutzerinnen dazu verlockt werden, die Dienste, Infrastrukturen 
oder Angebote digitaler Unternehmen zu nutzen — und zwar so, dass da- 
bei Daten entstehen. Diese Verwicklung von Nutzerinnen, Unternehmen 
und Dingen ist die Grundvoraussetzung für die Datenproduktion. Digi- 
tale Geschenke spielen eine zentrale Rolle dabei, Nutzerinnen und Un- 
ternehmen längerfristig in reziproke, datengenerierende und über Daten 
generierte Beziehungen zu verwickeln. 

Personendaten als Gaben und Waren: Zweitens ist der Klick als Moment 
der Datafizierung ein »delicate engineering accomplishment« (Alaimo 
& Kallinikos, 2019): Alltägliche Handlungen werden von Plattform- 
Unternehmen als digital ausführbare Skripts neu konfiguriert oder 
überhaupt erst erschaffen, so dass sie von Nutzerinnen ausgeführt 
werden können. Individuelle Handlungen werden so auf standardisierte 
Weise in »grammars of action« encodiert, dass die Handlungen verschie- 
denster Nutzerinnen mit verschiedensten Motiven und verschiedensten 
sozialen Kontexten vergleichbar werden. Momente der Datafizierung 
»infrastrukturieren« digitale Handlungen: Die Handlung einer Nutzerin 
wird nicht bloß registriert. Handlung und Datenaufzeichnung sind zwei 
Seiten der selben Medaille. Sobald eine Nutzerin eine solche geskriptete 
Handlung ausführt (zum Beispiel ein »like«), entsteht in der Datenbank 
eine Relation zwischen Objekt (zum Beispiel ein »deal«) und Nutzerin. 
Diese Relationen sind zwar weitgehend ein standardisiertes Produkt der 
Infrastruktur, doch ihr Wert ist auf die Fluktuation zwischen dekon- 
textualisierter »Datenware« und einer wahrgenommenen Authentizität 
als »Spur« von echten, bedeutungsvollen Handlungen von Nutzerinnen 
angewiesen. Dieser Sinnüberschuss muss technisch durch Verfahren 
des »encoding« oder der Vektorisierung ignoriert werden, damit »echte« 
individuelle Verhaltensweisen zu vergleichbaren Personendaten werden, 
mit denen gerechnet werden kann. 

»Good Matches« erhalten die Beziehung: Personendaten werden zu einer zen- 
tralen Ressource, mit denen sich »good matches« zwischen Nutzerin- 
nen und Dingen herstellen lassen. »Good matches« nehmen oftmals die 
Form von automatisierten Empfehlungen an. Es sind Vorhersagen dar- 
über, welche Nutzerinnen mit welchen Dingen wahrscheinlich zusam- 
menpassen, um so die soziale/ökonomische Relation zwischen Unter- 
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nehmen und Nutzerinnen zu gestalten und zu festigen. Interessanter- 
weise müssen Sinnüberschüsse in den Daten erst weggearbeitet werden, 
damit Empfehlungssysteme und Kategorisierungstools neue Relationen 
daraus ableiten konnen. Sobald Personendaten als verrechenbare Res- 
source vorliegen, kommt es zu einer Verdichtung der Relationen: Uber 
algorithmische Vergleiche werden Nutzerinnen zu anderen Nutzerinnen 
und Dingen in Beziehungen gesetzt, um Ahnlichkeiten, Differenzen und 
schließlich Passungsverhältnisse zu eruieren, welche die guten Beziehun- 
gen zwischen Unternehmen, Nutzerinnen (und Dritten wie zum Beispiel 
Werbekundinnen) in die Zukunft verlangern. 


Verwicklung Von 
KALTSTART Nutzerinnen und 
Da az Unternehmen Uber 


(digitale ) 
Geschenke 


» good matches « 


Ableitung never, 
prospektiver 
Relationen 
zwischen Nutzerinnen 
Und Dingen, die die 
Beziehungen 
awischen Unternehmen 
Und Nutterinnen 
evhalteh 


Herstellung Von 
Vergleichbarkeit: 
Von Daten als Gabe 
tu Daten als Ware 


Abb. 1: Momente der Datafizierung 


Diese drei Momente der Datafizierung s ind a nalytische Abstraktionen. 
Im ersten Moment fokussiere ich auf die Relationen zwischen Nutzerinnen 
und Unternehmen. Im zweiten Moment geht es um digitale Verhaltenswei- 
sen als sozial und subjektiv bedeutsame Relationen zwischen Nutzerinnen 
und Unternehmen sowie um Daten als formale Relationen von »users« und 
»items«. Das dritte Moment beschreibt die Ableitung prospektiver Relatio- 
nen im Sinne von »good matches«, indem Nutzerinnen mit weiteren Daten 
und anderen Nutzerinnen, zu denen bisher keine Relationen bestanden, in 
Beziehung gesetzt werden. 


4 Momente der Datafizierung 


Die drei Momente konvergieren tendenziell im Moment des Klicks (view, 
buy, use, like, comment, share, etc.), auch wenn sie in ihrer Logik und in ih- 
rem faktischen Ablauf sequenziell sind. Das wird daran deutlich, dass sich 
die einzelnen Momente je mit den anderen beiden Momenten überlappen: 
Der Austausch von Geschenk und Gegengeschenk basiert auf einer weitge- 
henden »Encodierung« von Verhaltensweisen, wie sie im zweiten Moment 
beschrieben ist, so dass Geschenk und Gegengeschenk im Klick zusammen- 
fallen können. Die Herstellung von Vergleichbarkeit - i.e. die Transformation 
von Gabe zu Ware - ist auf die in den Daten/Verhaltensweisen steckenden 
Kontexte und Sinngehalte angewiesen, die im ersten Moment der Verwick- 
lung von Nutzerinnen und Unternehmen zu Stande kommen. Vergleichbar- 
keit wird zwar hauptsächlich im zweiten Moment hergestellt, aber nicht nur: 
Vergleichbarkeit ist auch bei vollständiger Encodierung noch nicht komplett 
gegeben, wie das Beispiel des Collaborative Filtering (siehe Kapitel 10.4) oder 
der Qualitätsbewertung von Kommentaren (siehe Kapitel 10.1) zeigt. Die Her- 
stellung von Vergleichbarkeit ist also auch in die Relationierungsverfahren 
des dritten Momentes eingelassen. Das dritte und das erste Moment über- 
lappen sich ebenfalls, wenn die beziehungsgenerierenden Geschenke durch 
beziehungserhaltende, personalisierte Angebote und Empfehlungen ersetzt 
werden, d.h. wenn zum Beispiel die »free trial period« abläuft und genügend 
Daten generiert werden konnten, um nun Empfehlungen abgeben zu kön- 
nen, welche die Nutzerin motivieren, den Dienst kostenpflichtig zu nutzen. 

Wie ich insbesondere in Kapitel 6 darlege, ist der Kaltstart ein zentrales 
Problem der Momente der Datafizierung. Anders ausgedrückt: Momente der 
Datafizierung sind in ihrer Funktionslogik auf das angewiesen, was sie erst 
produzieren sollen: Personendaten. Sie sind also nicht nur sequenziell, son- 
dern auch zirkulär (insbesondere Empfehlungssysteme verdeutlichen diese 
zirkuläre Logik; siehe Kapitel 9). Geschenke bringen die Zirkulation von da- 
tengenerierenden Verhaltensweisen in Gang , so dass daraus verhaltensgene- 
rierende Daten abgeleitet werden können und personalisierte Empfehlungen 
an die Stelle von Geschenken treten - und der Zyklus von vorne beginnen 
kann. 
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5 »Das Datenexperiment« 


In diesem Kapitel präsentiere ich ein »Datenexperiment« von Earlybird und 
Earlybird Digital. Von der ersten Idee bis zur Durchführung und zur Präsen- 
tation der Resultate erstreckte es sich von Ende 2016 bis Sommer 2017. Wie 
ich im vorigen Kapitel theoretisch andeutete, erhalten Daten ihren Wert in 
einem mehrstufigen Prozess der Datafızierung. Dieser umfasst die Idee der 
Potenzialität von Daten (ausgedrückt in Narrativen und Datenmetaphern) 
sowie verschiedene Transformationsvorgänge, in welchen soziale Relationen 
erst erzeugt und dann entfernt oder unsichtbar gemacht werden. Schließ- 
lich werden neue Relationen mit Hilfe algorithmischer Vergleiche abgeleitet. 
Das Datenexperiment verdeutlicht in verdichteter Form drei Probleme, mit 
denen sich Earlybird im Kontext ihrer Digitalisierungsstrategie beschäftigte: 
Das Problem der fehlenden Daten, das Problem, dass sie bisher keinen zu- 
verlässigen, datenbasierten Mechanismus besaßen, um Member und Mem- 
berkategorien zusammenzubringen und daran anschließend das Problem, 
wie aus bestehenden Daten neue Relationen zwischen Membern und Dingen 
abzuleiten waren. 


5.1 Fehlende Daten 


Das erste Problem bestand darin, überhaupt Daten über die eigenen Mem- 
ber! zu generieren. »Soviel wie möglich über die Member [zu] wissen«, war 
das Motto von Earlybirds digitaler Transformation: Member müssen dazu 
gebracht werden, sich in den zur Verfügung gestellten Infrastrukturen zu 
bewegen und dabei Spuren zu hinterlassen. Das ist aber gar nicht so einfach: 
Denn Member benutzten die App nicht, ohne durch teure Maßnahmen da- 
zu motiviert zu werden. Wie Earlybird herausfinden musste, teilen sie der 


1 Ich verwende hier anstelle von Kunden den emischen Begriff der Member, wie er von 
Earlybird verwendet wird. 
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Firma auch nicht ohne Weiteres ihre Interessen mit, wenn sie direkt danach 
gefragt werden. 

Weshalb sind Personendaten aber überhaupt wichtig? Wie bereits gese- 
hen, kommt die Potenzialität von Personendaten in Narrativen und Meta- 
phern zum Ausdruck. Mit dem Datenexperiment versuchen Nik und Simon 
konkreter aufzuzeigen, »was mit Daten möglich ist«. Sie präsentierten ge- 
meinsam einen Satz »schöner Daten«, in welchem Member freigiebig ihre 
Wünsche mitteilten. Dieser sollte sowohl die Fantasie der Member als auch 
jene von Earlybird beflügeln. Es tauchte die Frage auf, wie man an weitere 
solche Daten komme beziehungsweise was die Firma den Membern bieten 
müsste, damit sie sich mitteilen. 


Der Wettbewerb 

Im Sommer 2016 führte Earlybird einen Wettbewerb für einen Business- 
partner — ein Reisebüro für junge Leute — durch. Die Wettbewerbsteilneh- 
merinnen wurden aufgefordert, aus einem Dropdown-Menü zwischen drei 
Wunschdestinationen zu wählen und kurze Kommentare in Freitextfeldern 
zu hinterlassen. Darin sollten sie erklären, weshalb sie gerne dort hin möch- 
ten und was sie dort tun würden. Den Gewinnerinnen winkten diverse Preise. 
Ungefähr 3000 Personen nahmen teil und das Reisebüro war zufrieden. Ear- 
lybird Digital sah aber noch mehr als bloß eine gelungene Marketingaktion 
in diesem Wettbewerb. Er lieferte etwas, das bisher eher schwierig zu kriegen 
gewesen war: persönliche Daten. 

Earlybird beauftragte Simon, den Senior Data Scientist von Earlybird Digi- 
tal, damit, herauszufinden, was »mit diesen Daten möglich ist«. Bei Earlybird 
war schon länger bekannt, dass Wettbewerbe »engagement« generieren. Wo- 
möglich ließen sich damit auch persönliche Daten von ihren ansonsten eher 
wenig mitteilsamen Membern generieren. 

Zuvor hatte Earlybird bereits versucht, etwas über die Interessen ihrer 
Member zu erfahren, indem sie diese in teuren Kampagnen dazu aufforder- 
ten, ihre Memberprofile auf der Earlybird Webseite auszufüllen. Die Mem- 
ber sollten verschiedene Interessenskategorien wie Nachtleben, Shopping 
oder andere Konsumpräferenzen anklicken. Unglücklicherweise für Earlybird 
ignorierten die allermeisten Member diese Aufforderung. Vor diesem Hin- 
tergrund erschien der Erfolg des Wettbewerbs überraschend. Im Vergleich 
zu vergangenen Bemühungen, an Daten ihrer eher unkooperativen Member 
zu kommen, zeigte dieser Wettbewerb, dass die Member unter den richtigen 
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Umständen durchaus bereit waren, etwas über sich mitzuteilen- selbst dann, 
wenn sie in keiner Weise dazu gezwungen werden, schließlich wäre eine Teil- 
nahme auch unter alleiniger Angabe einer Emailadresse möglich gewesen. 

Bevor Earlybird damit beginnen konnte, eigene Member hinsichtlich ihrer 
Interessen zu kategorisieren, mussten diese erstin das»Earlybird-Universum« 
eintreten. Nominal werden Jugendliche zwar zum Member, wenn sie ein 
Bankkonto eröffnen. Ohne sich aber auf der Webseite oder in der App ein- 
zuloggen, bleiben sie in Bezug auf ihre Interessen für Earlybird unsichtbar. 
Der Wettbewerb stellte für Earlybirdeine Lösung für das Problem dar, ansons- 
ten ungerührte und unsichtbare Personen in »engagierte« Member zu trans- 
formieren. Der Wettbewerb war Evidenz, dass Member unter den richtigen 
Umständen durchaus bereit sind, zu kooperieren und etwas über sich mitzu- 
teilen: Die Member teilen persönliche Daten. Im Gegenzug erhalten sie eine 
Chance, lukrative Preise zu gewinnen. Uman Daten heranzukommen, musste 
Earlybird affektive Relationen zwischen sich, ihren Angeboten (bzw. den An- 
geboten ihrer Partnerunternehmen) und ihren Membern erzeugen. 

Wie sich herausstellte, erzeugte der Wettbewerb nicht nur Daten, son- 
dern sogar »schöne Daten«. Viele der Teilnehmerinnen nahmen ihre Aufga- 
be äußerst ernst und lieferten detaillierte Texte, weshalb sie gerne verschie- 
dene Wunschdestinationen besuchen würden. Diese»natural language data« 
versprachen in den Augen von Earlybirds Datenteam wertvolle »insights« für 
Marketingkampagnen. 


5.2 Von Sinnüberschüssen zu verrechenbaren Daten 


Das zweite Problem bei Earlybird bestand darin, eine kategoriale Verbin- 
dung zwischen vorhandenen Membersegmenten und Membern zu ziehen. 
Das sei mit den schönen Daten möglich, stellte Simon in Aussicht. Wie ich 
beschreiben werde, setzt das jedoch voraus, den in den Daten identifizierten 
Sinnüberschuss weitgehend zu ignorieren. Erst dann werden die verschie- 
denen Member vergleichbar. Hier werden die Verhaltensweisen der Nutze- 
rinnen - i.e. Wettbewerbsantworten — zu »warenförmigen« Personendaten 
gemacht, indem sie von den Sinnüberschüssen, mit denen die Teilnehmerin- 
nen sie ausgestattet haben, befreit werden. Daten werden produktiv, indem 
sie dazu gebracht werden, Muster und Regelmässigkeiten zu offenbaren. 
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Ein Kategorisierungsexperiment: Von Freitextantworten zu Segmen- 
ten 

Nach internen Diskussionen darüber, was mit den Daten möglich sei, kam Si- 
mon eine »Glühweinidee«, wie Beni es nannte. Beni und Simon hatten sich 
schon öfter über Earlybirds Kundensegmente unterhalten, die vor einiger Zeit 
von einem externen Unternehmen erstellt wurden, aber nie richtig zur An- 
wendung kamen. Sie verfügten über keine günstige und konsistente Metho- 
de, um Kunden und Segmente miteinander zu verlinken. Dieses Problem 
wollte Simon mit Hilfe der»schönen Daten«und einer Idee für al gorithmische 
Kategorisierung lösen. 

Simon und sein Team transformierten die Freitextantworten und die Be- 
schreibungen der Jugendmilieus zu Vektoren in einem multidimensionalen 
Raum: Jede Teilnehmerin und alle fünf Jugendmilieus wurden als Punkte in 
einem hoch abstrakten Raum repräsentiert, so dass sie in Bezug auf ihre Ähn- 
lichkeit-gemessen am Winkel ihrerjeweiligen Vektoren -verglichen werden 
konnten (siehe dazu genauer Kapitel 7). 

Um festzustellen, wie genau diese Resultate der algorithmischen Zuord- 
nung waren, lief Earlybird drei Expertinnen im Bereich Jugendmarketing 
einen »Goldstandard« erstellen. Diese drei Expertinnen - ich war einer da- 
von—ordneten den Jugendmilieus unabhängig voneinander 600 Textantwor- 
ten zu- basierend auf »Intuition« und »Marketing Expertise«. 

Die Zuordnungen des Goldstandards ließen sich dann mit den algorith- 
mischen Kategorisierungen vergleichen. Dieser Vergleich macht nicht nur ei- 
ne Aussage darüber, wie gut oder wie genau der Algorithmus kategorisieren 
kann. Er bringt auch manuelle und algorithmische Kategorien in einen Ver- 
gleichszusammenhang: Der Erfolg des Algorithmus wird daran gemessen, 
wie gut er die Urteile der Expertinnen replizieren kann. Gleichzeitig erhalten 
die schwierigen und in hohem Maß uneindeutigen Expertenurteile den An- 
schein technischer Neutralität und Objektivität, welche sie in der Praxis nicht 
haben. Das Experiment galt als Erfolg: Der Algorithmus produzierte knapp 40 
Prozent Ubereinstimmung mit den Expertenurteilen. 
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5.3 Neue Relationen generieren 


Das dritte Problem ist jenes der Anwendung. Die schönen Daten galten als 
Indiz für potenzielle Relationen zwischen Membern und Dingen oder Mem- 
bern und Partnerunternehmen. Die Frage, wie Member einer bestimmten 
Kategorie adressiert werden, überließ Simon aber weitgehend »dem Marke- 
ting«. 

Für die federführenden Datenwissenschaftler war das Experiment ein Er- 
folg: Es resultierten computerwissenschaftliche Vorträge und ein Paper in 
einer einschlägigen Fachzeitschrift. Bei Earlybird setzt sich die Erkenntnis 
durch, dass Wettbewerbe eine wichtige, datengenerierende Ressource sind. 
Die vorgeschlagene Kategorisierung wurde in der beschriebenen Form aber 
nicht weiterverwendet. Earlybird Digital adaptierte den Classifier zu einem 
»freebie«, um potenzielle Kunden für Data-Science-Dienstleistungen zu ge- 
winnen. Diese sollten den Kundinnen erlauben, mehr über ihre eigenen Nut- 
zerinnen oder Kundinnen zu erfahren. 


Der Classifier als Generator von Relationen 

Meine Feldforschung bei Earlybird endete, kurz bevor Simon und sein Team 
ihren algorithmischen Classifier an einer akademischen Konferenz präsen- 
tierten. In informellen Interviews stellte sich heraus, dass der Classifier vor al- 
lemals computerwissenschaftliche Forschung erfolgreich war. 2019 veröffent- 
lichten Simon und einer seiner Mitarbeiter dazu ein Paper in einer Fachzeit- 
schrift. In Simons Vorstellung hatten die kategorialen Zuordnungen der Mem- 
berermöglichen sollen, dass das Marketingteam für die verschiedenen Mem- 
berkategorien spezifische Werbekampagnen durchführen können.? Wie mir 
Nik berichtete, stellte sich jedoch heraus, dass zwischen den Jugendmilieus zu 
geringe Differenzen bestanden, um diese interpretieren zu können. Die Text- 
beschreibungen der Jugendmilieus waren »Kacke«, wie er mir erklärt, da sie 
»nichts ausgesagt« hätten. 

Der Classifier war aber nicht tot, sondern generierte unter der Bezeich- 
nung»smart customer segmentation« neue Relationen: Nik nutzte den neuen 
Classifier als »freebie« für die Kundenacquirierung. Kann er einer potenziel- 
len Kundin den»Mehrwert der Datenanalyse« vermitteln-indem er demons- 
triert, wie sie dank seiner Analyse neue Beziehungen zu Kundinnen knüpfen 
kann-, ist die Kundin möglicherweise bereit, eine längerfristige Geschäftsbe- 
ziehung mit Earlybird Digital einzugehen. 
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Der im Rahmen des Datenexperiments entwickelte Classifier versuchte, die 
Lücke zwischen Membern und den von Earlybird angebotenen »Deals« über 
eine »algorithmische Zuordnung« von Marketingsegmenten zu schließen. 
Obwohl das einigermaßen gut funktionierte, wurde der auf Segmenten basie- 
rende Classifier nicht in Betrieb genommen, sondern in abgespeckter Form 
ohne Segmente als »freebie« verwendet, um weitere Aufträge einzuholen. 

In den nächsten drei Kapiteln formuliere ich nun auf der Grundlage 
meiner Feldbeobachtungen und mithilfe verschiedener theoretischer Be- 
zugspunkte das Konzept »Momente der Datafizierung« (Kapitel 6 bis 8). Um 
die Lücke zwischen den kategorisierten Nutzerinnen und den Dingen kon- 
zeptuell zu schließen, lege ich dar, wie automatisierte Empfehlungssysteme 
die Relation zwischen Nutzerinnen und neuen Dingen knüpfen (Kapitel 9 
im Allgemeinen und Kapitel 10 im Detail). 


2 Schon vor dem Experiment verwendete das Marketingteam eine eigene »Taxonomie« 
von Deals beziehungsweise Interessenskategorien. Die von Simon verwendeten Mem- 
berkategorien — so meine Vermutung — waren beim Marketingteam gar nicht an- 
schlussfähig. 


6 Erstes Moment: Digitale Geschenke 


6.1 Kaltstart, oder: Das Henne-Ei-Problem 


Das Henne-Ei-Problem 

Während meiner Feldforschung bei Earlybird und Earlybird Digital treffe ich 
auf zwei Varianten des selben Problems, das den Kern von Earlybirds Digitali- 
sierungsstrategie betrifft, aber auch in der computerwissenschaftlichen Lite- 
ratur als Hindernis für Empfehlungssysteme besprochen wird (Ekstrandetal., 
2011; Bobadilla et al., 2012). Dani, der Junior Data Scientist, nennt es in Bezug 
auf die technische Literatur das »Kaltstart-Problem«; Nina, die Banken und die 
Partnerunternehmen betreut, bezeichnet es als das » Henne-Ei-Problem«. 

Dani erklart mir das Kaltstart-Problem zum ersten Mal, als wir Mitte Ok- 
tober gemeinsam ins Restaurant gehen, um zu Mittag zu essen. Ich hatte kurz 
zuvor erfahren, dass er damit beauftragt ist, für Earlybird ein Empfehlungssys- 
tem zu bauen, das den Nutzerinnen der App individuell passende»Deals« vor- 
schlagen soll. Ererklart mir, dass ein klassisches Problem bei der Implementa- 
tion von Empfehlungssystemen der Kaltstart sei. Wenn eine neue Nutzerin in 
das System komme, habe das System normalerweise noch keine Informatio- 
nen über sie, da sie noch nichts angeklickt oder bewertet hat. Um personali- 
sierte Empfehlungen ausspielen zu können, brauche es Daten. Da die meisten 
Earlybird-Member aber die App nicht benutzen würden, seien keine oder zu 
wenig Daten vorhanden. Es gebe aber die Möglichkeit, zu Beginn keine perso- 
nalisierten Empfehlungen zu machen, sondern einfach die beliebtesten oder 
neusten Angebote anzuzeigen. Das Kaltstart-Problem könne auch umgangen 
werden, wenn Produkte kategorisiert seien oder Nutzerinnen Präferenz-oder 
Interessenskategorien in ihrem Profil angeben. 

Später schickt er mir Literatur zu Empfehlungssystemen. Darin sind drei 
Varianten des Kaltstart-Problems beschrieben: Analog zum Problem der neu- 
en Nutzerin gibt es auch das Problem des neuen Angebots — ein neues Pro- 
dukt, ein neuer Film, oder ähnliches — oder das Problem einer neuen Nut- 
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zergemeinschaft. Die technische Literatur beschreibt das Problem der neuen 
Nutzerin folgendermaßen: 


The new user problem represents one ofthe great difficulties faced by 
the RS [Recommender System] in operation. Since new users in the RS 
have not yet provided any rating in the RS, they cannot receive any per- 
sonalized recommendations based on memory-based CF [Collaborative 
Filtering]; when the users enter their first ratings they expect the RS to 
offer them personalized recommendations, but the number of ratings 
introduced in the RS is usually not yet sufficient to be able to make re- 
liable CF-based recommendations, and, therefore, new users may feel 
that the RS does not offer the service they expected and they may stop 
using it. (Bobadilla et al., 2012, S. 113) 


Im März 2017 wohne ich einer Sitzung bei, die sich im Kreis um Earlybirds spe- 
zifisches und weitergehendes Kaltstart-Problem dreht. Angesichts vieler ver- 
schiedener Projekte im Zusammenhang mit Memberdaten, so erklart Nina, 
sei es für sie schwierig, den Überblick zu behalten und sich angemessen auf 
die Einzelprojekte zu konzentrieren, die überdies noch alle voneinander ab- 
hängig seien. Es geht insbesondere um einen »Printletter«— eine kleine Bro- 
schüre mit personalisierten Angeboten, die den Membern nach Hause ge- 
schickt werden soll. Damit der Printletter etwas nütze, müssten sie darin für 
den Einzelnen »relevante Inhalte« abdrucken. Relevante Inhalte hätten sie 
aber nur, wenn der Recommender funktioniere. Dazu müssten sie aber mehr 
Daten sammeln, was nur funktioniere, wenn mehr Leute die App benutzen, so 
der Geschäftsführer Beni. 

Nina reformuliert das Problem als »Henne-Ei-Problem«: Mit welchem 
Projekt sollen sie beginnen oder worauf sollen sie sich zuerst fokussieren, 
wenn »alles ein Kreislauf« sei? Sie können nur Daten sammeln, wenn ihre 
Member die Webseite und die App benutzen. Die Member würden aber nur 
als engagierte Nutzerinnen der Webseite und der App in Erscheinung tre- 
ten, wenn sie »individualisiert« angesprochen werden. Dazu braucht Early- 
bird aber Daten, sonst »bringt es nicht viel«. Nur wenn sie die Member »rich- 
tig« — d.h. individualisiert und mit relevanten Angeboten - ansprechen, re- 
agieren die Member und werden zu »engagierten« Membern, welche die di- 
gitale Infrastruktur nutzen und so weiter Daten generieren würden. 


6 Erstes Moment 


Das Problem des Kaltstarts besteht in der Zirkularität beziehungsweise den 
Feedback-Loops algorithmischer Infrastrukturen. Algorithmische Empfeh- 
lungen funktionieren nur, wenn Nutzerinnen dem System Informationen 
über ihre Präferenzen in Form von expliziten Bewertungen oder impliziten 
Verhaltensweisen »mitgeteilt« haben (siehe dazu genauer Kapitel 7). Kurz: Es 
muss über die Nutzerinnen etwas bekannt sein. Da neue Nutzerinnen noch 
keine Spuren hinterlassen haben, besteht keine Möglichkeit, ihnen »per- 
sonalisierte« Empfehlungen zu geben. Stattdessen wird oftmals versucht, 
mithilfe von »blunter techniques« (Seaver, 2018, S. 2) wie der Empfehlung 
von populären Dingen (Songs, Filme, Deals, etc.) oder inhaltsbasierten 
Empfehlungen datengenerierendes Verhalten zu motivieren: Wer einen 
Film des Genres Science-Fiction mit Sigourney Weaver angesehen hat, mag 
womöglich auch andere Science-Fiction-Filme mit Sigourney Weaver, Filme 
mit Sigourney Weaver oder Science-Fiction im Allgemeinen. Anschließend 
lassen sich dann »bessere«, personalisierte Empfehlungen machen. Ein von 
Nick Seaver (2018) interviewter Entwickler eines Musikstreamingdiensts 
formuliert es folgendermaßen: 


If you're in your first week of listening to us, we're like, »>Fuck that! Play the 
hits!« Play the shit you know they’re going to love to keep them coming back. 
Get them addicted. In the beginning, I’m just trying to get you hooked. (Sea- 
ver, 2018, S. 2) 


In den algorithmischen Feedback-Loops von Empfehlungssystemen sind Da- 
ten die »missing commodity« (Fourcade & Kluttz, 2020). Das zeigt das Bei- 
spiel von Earlybird - ein Unternehmen, das mitten in einem weitgehenden 
Digitalisierungsprozess steht. Das Problem fehlender Daten ist aber nicht 
bloß ein technisches Problem von Danis Empfehlungssystem. Die Problem- 
diagnose ist im Unternehmen weitgehend etabliert. Nina meint etwas pro- 
vozierend, dass sie den »Printletter« auch auf »Männchen« und »Weibchen« 
zuschneiden könnte, auch wenn das nicht die Idee sei. Für Earlybird ist aber 
klar: Der Printletter und andere Marketingmaßnahmen sollen »individuell« 
sein. Dazu braucht es Daten. Daten kriegen sie aber nur, wenn sie die Mem- 
ber richtig - d.h. individuell - ansprechen, wozu sie wiederum Daten brau- 
chen. 

In diesem Kapitel geht es um die Frage, wie digitale Unternehmen die Be- 
ziehungen zu ihren Nutzerinnen gestalten, um Personendaten zu generieren. 
Ich argumentiere, dass diese Beziehungen weitaus subtiler als die asymme- 
trischen Machtbeziehungen sind, wie sie Shoshana Zuboff versteht. Es wird 
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zwar mit Zwang operiert, doch reicht Zwang als Erklärung nicht aus, um zu 
verstehen, wie Momente der Datafizierung funktionieren. Nutzerinnen sind 
manchmal unkooperativ, anspruchsvoll oder schlicht abwesend:! Unterneh- 
men müssen sie »motivieren« (Earlybird), »verführen« (Cochoy, 2007) oder 
»einfangen« (Seaver, 2018). Aber was motiviert, verführt oder ködert die Nut- 
zerinnen? 

Bei Earlybird im Speziellen und in der digitalen Ökonomie im Allgemei- 
nen spielen Geschenke eine wichtige Rolle dabei, Nutzerinnen überhaupt in 
die digitalen Datafizierungsinfrastrukturen einzuschleusen und sie darin zu 
behalten. Marion Fourcade und Daniel Kluttz schreiben: »digital firms see 
cyber-gifts as a key to the primitive accumulation process - a crucial means 
by which to extract valuable troves of personal or organizational data« (Four- 
cade & Kluttz, 2020, S. 7). Digitale Geschenke können in verschiedenen For- 
men vorkommen. In Datafizierungsinfrastrukturen haben sie idealerweise 
die ambivalente Form von Deals, die nicht ausgeschlagen werden können be- 
ziehungsweise von Geschenken, die nicht unerwidert bleiben konnen. Durch 
den Austausch von Geschenken verwickeln sich die Unternehmen mit den 
Nutzerinnen mit dem Ziel, die Beziehungen am laufen zu halten und weiter 
Daten produzieren zu können. 


6.2 »Inducement« 


Weder Unternehmen noch Nutzerinnen können Daten alleine erzeugen. Per- 
sonendaten entstehen aus der relationalen Verwicklung von Nutzerinnen und 
Unternehmen in einer technischen Infrastruktur. Bill Maurer (2015) stellt 
in einem Pamphlet digitale Personendaten in einen sozialanthropologischen 
Zusammenhang, indem er provokativ fragt: »what kind ofrelation is the data? 
Is it my child, the offspring of Google and me? Is Google the original »concei- 
ver and am I more like the surrogate mother or is it the other way around?« 
(Maurer, 2015, S. 80). Maurers Frage weist darauf hin, dass Personendaten 
aus einem familiären, beinahe »intimen« Verhältnis von Unternehmen und 


1 Siehe Zwick et al. (2008, S. 170 ff.), Gabriel & Lang (2015) zur neuen Heterogenität 
und »fickleness« von Konsumenten und zur im Marketing postulierten Notwendigkeit, 
»Beziehungen« zu Konsumenten aufzubauen. 
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Nutzerin hervorgehen und nicht für den Markt produziert werden.” Damit 
Personendaten entstehen können, braucht es sowohl die von Unternehmen 
zur Verfügung gestellte Infrastruktur als auch darin agierende Nutzerinnen. 

Mit seiner anthropologischen Irritation fordert Maurer (2015, siehe auch 
Gregg 2015) dazu auf, in der Untersuchung von Big Data, Algorithmen und 
der digitalen Ökonomie stärker darauf zu achten, welche Beziehungen und 
Verpflichtungen bei der Generierung von Daten entstehen beziehungsweise 
bewusst oder unbewusst eingegangen oder gar erzeugt werden. Wirtschaft- 
liches Handeln ist nicht nur in soziale Beziehungen eingebettet (Granovet- 
ter, 1985), sondern umfasst auch die aktive Gestaltung von Beziehungen zwi- 
schen ökonomischen Akteuren. Beziehungen werden absichtsvoll erzeugt, 
auf Dauer gestellt und möglicherweise wieder aufgelöst (Zelizer, 2012; Co- 
choy, 2007, S. 204). Viviana Zelizer argumentiert dafür, über das Paradigma 
der »embeddedness« hinauszugehen und die artifizielle Trennung zwischen 
wirtschaftlichen und sozialen Beziehungen aufzuheben, indem »economic 
phenomena as the formation and negotiation of relations as well as the con- 
struction of meaning and the organization of categories« untersucht werden 
sollen (Zelizer, 2012, S. 149). 

In der Debatte um die Frage, wie Personendaten entstehen, nimmt 
Shoshana Zuboff (2015; 2018) eine deutliche Position ein. Sie sieht die Er- 
zeugung von Personendaten als gewaltvollen Extraktionsprozess, dem die 
Nutzerinnen relativ ohnmächtig gegenüber stehen: 


[data] extraction is a one-way process, nota relationship. Extraction conno- 
tes aotaking from< rather than either a>giving tox, or a reciprocity of give and 
take. The extractive processes that make big data possible typically occur in 


2 Siehe aber Jaron Lanier (2014), der ein »full fledged commercial relationship« zwi- 
schen datensammelnden Unternehmen und Nutzerinnen sowie zugehörige »inali- 
enable commercial rights to data that wouldn't exist without you« (Lanier, 2014, 317) 
anvisiert. Problematisch ist hier natürlich, dass die Daten ohne Google (0.A.) nicht exis- 
tieren würden (Maurer, 2015). Solove würde hinzufügen, dass »the market value of in- 
formation is not created exclusively by the labor of the individual to whom it relates 
but in part by the third party that compiles the information« (2008, 27). Oder, wie Gör- 
an Bolin (2009) in Bezug auf Dallas Smythes (1977) Konzept der»audience commodity« 
kritisiert: Es sind nicht die medienkonsumierenden Zuschauerinnen, Zuhörererinnen 
oder Leserinnen, die arbeiten: »it is not the viewers who work, but rather the statisti- 
cians« (Bolin, 2009, S. 357) oder aktuell die »data scientists«. 
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the absence of dialogue or consent, despite the fact that they signal both 
facts and subjectivities of individual lives. (Zuboff, 2015, S. 79)? 


Personendaten erscheinen in Zuboffs Lesart als das unilateral, gewaltvoll »Ge- 


nommene«,* 


wie sie auch Theorien der primitiven Akkumulation von Daten 
durch Enteignung betrachten (Couldry & Mejias, 2019b; Thatcher et al., 2016). 
Die Generierung von Personendaten findet aber in einem Graubereich zwi- 
schen Warenökonomie und Gabenökonomie statt, der sowohl Asymmetrie als 
auch Formen der Reziprozität zulässt (Elder-Vass, 2016). Nutzerinnen »ge- 
ben« persönliche Daten nicht freiwillig, aber sie werden auch nicht einfach 
bestohlen: Es braucht die Kooperation der Nutzerinnen, um Daten generie- 
ren zu können. »[CJonsumer »surveillance< is predicated on the active solicita- 
tion of personal information from individuals in exchange for the promise of 
some form of reward«, wie Greg Elmer (2004, S. 73, meine Hervorhebung) 
in Bezug auf Konsumentendatenbanken schreibt (siehe auch Turow 2008, 
insbesondere Kapitel 4; Pridmore (2010) zu »customer loyalty programs«). 
Auch Earlybird versteht Datengenerierung nicht als Extraktion von Ressour- 
cen, sondern als eine Form des Austauschs. So wollen sie denn herausfin- 
den, unter welchen Bedingungen die Member bereit sind, etwas von sich 
preiszugeben. Dabei handelt es sich nicht um ein »one-way relationship«, 
wie Zuboff (2015) betont, sondern um eine sorgfältige Konfiguration von Be- 
ziehungen zwischen Unternehmen, Nutzerinnen, Dingen (und Kundinnen). 
Gerade der Fall eines kleinen Unternehmens wie Earlybird, dessen Verhältnis 
zu den Nutzerinnen weniger asymmetrisch ist als bei einem Techgiganten, 
ermöglicht es, das zu sehen. 

Frank Cochoys (2007) französischer Begriff der »captation« oder Nick 
Seavers (2018) »captivating algorithms« weisen darauf hin, dass Datengene- 
rierung bedingt, Personen dazu zu »verführen«, sich in datengenerierende 


3 Obwohl diese Charakterisierung des Datafızierungsprozesses bei Google wohl zutrifft, 
stellt sich die Frage, ob der Prozess per se durch diese Asymmetrie gekennzeichnet ist 
oder ob Datafizierung als gewaltvolle Extraktion aus der Quasi-Monopolstellung von 
Google resultiert (Srnicek, 2017; Doctorow, 2020). Wie verschiedene Arbeiten zeigen, 
sind Nutzerinnen keineswegs nur passive Opfer einer allmächtigen Datafizierungsma- 
schinerie, sondern sie navigieren die Verdatungsbemühungen von Plattformen und 
anderen Unternehmen auf kritische und zum Teil subversive Weise (siehe Cohn 2019; 
Kant 2020; Nafus & Sherman 2014). 

4 Siehe auch Kitchin (2014), der den Begriff »capta« — das Genommene - anstelle von 
»data«- das Gegebene - für passender hält (vgl. Rosenberg 2013). 
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Infrastrukturen hineinzubegeben, digitale Angebote zu nutzen und so Da- 
ten als »missing commodity« zu erzeugen. Diese Relationen haben nicht die 
Form eines wirtschaftlichen Tauschs, d.h. eines vertraglichen Tauschs von 
Daten gegen Dienstleistungen.” Sie erscheinen als großzügiger und weit- 
gehend freiwilliger Austausch von Geschenken, wie Dave Elder-Vass (2016) 
argumentiert: 


It may be tempting to see these transfers as exchanges, since we provide 
Google with something of value at the same time as they provide us with 
search results. But this is nota market exchange: it is not a contractual trans- 
fer of one thing as payment for another. We do not provide a search term in 
payment for our search results but rather because it is inherently impossible 
to obtain search results without providing one! But in providing the search 
term for one purpose, the user also incidentally, as an unintended byproduct, 
provides something of value to Google. (Elder-Vass, 2015) 


Die Verwicklung von Unternehmen und Nutzerinnen lässt sich nicht rein ver- 
traglich regeln. Digitale Unternehmen kennen aber eine Reihe von Techniken, 
die Franck Cochoy mit dem Begriff der »captation« umfasst: ein Ensemble 
von Operationen, das darauf ausgerichtet ist, Einfluss auszutiben, andere an- 
zuziehen oder an sich zu binden. Wie Cochoy betont, steht im Zentrum der 
»captation« der Versuch, die (6konomischen) Beziehungen abseits formeller 
Vertrage zu gestalten. Er schreibt: 


the captation of publics consists in putting to work dispositifs which attempt 
to profit from dispositions that one attributes to persons in order to shift 
their trajectories, to remove them from the external space and exercise con- 
trol over them. [...] it is a matter of having a hold over something that one 
does not, or rather not yet, completely control [...] [it involves] the care and 


5 Die grundsatzlichen Bedingungen des Tauschs sind zwar durchaus in AGBs und neuer- 
dings in GDPR-Zustimmungsaufforderungen festgelegt. Solon Barocas und Helen Nis- 
senbaum (2014) weisen aber auf die Absurdität dieses Arrangements hin. Weder lässt 
sich darin das Verhaltnis von Nutzerin und Unternehmen komplett regeln, noch ist es 
für die individuellen Nutzerinnen möglich, sämtliche »terms of services« durchzule- 
sen. Sie beklagen die »ultimate inefficacy of consent as a matter of individual choice 
and the absurdity of believing that notice and consent can fully specify the terms of in- 
teraction between data collector and data subject« (2014, s. 45). Fur Turow et al. (2015) 
sowie Draper & Turow (2019) ist »Resignation« eine rationale Verhaltensweise von in- 
formierten Nutzerinnen, um mit den Verschleierungspraktiken von datensammeln- 
den Unternehmen umzugehen. 
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the effort put into establishing a bond without any guarantee of succeeding. 
(Cochoy, 2007, S. 204f.) 


Als Beispiel für solche »captation devices« untersucht Cochoy QR-Codes auf 
Weinflaschen. Diese erweisen sich als für die Frage instruktiv, wie Perso- 
nen motiviert werden, zu Nutzerinnen und Datengeneratoren zu werden. 
Eine französische Weinherstellerin ist dazu übergegangen, ihre Weine nicht 
mehr mit den traditionellen Etiketten zu beschriften, sondern mit »Quick- 
Response-Codes«. QR-Codes sind für Menschen unleserliche schwarz-weisse 
Quadrate, die mit einem Smartphone eingelesen werden müssen, um auf ei- 
ne Webseite zu gelangen. Im Falle der Weinflaschen im Supermarkt erhalten 
die Konsumentinnen Informationen zur Herkunft, Biologie und Geschichte 
einer Weinflasche und ihrem Inhalt, wenn sie den Code auf der Flasche ein- 
scannen. Der QR-Code als »captation device« funktioniert dann, wenn er die 
Neugier der Shopperin zu erwecken vermag und sie dazu bringt, ihr Smart- 
phone hervorzunehmen und den Code einzuscannen. 


the data matrix only grants access to the knowledge it possesses on the con- 
dition that it is activated. [...] the data matrix generates a riddle and a sen- 
se of expectation; because it is intended to mean something, it might well 
arouse the excitement necessary for its activation. (Cochoy, 2016, S. 151) 


»Captation devices« in Form solcher QR-Codes generieren Aufmerksamkeit, 
indem sie Informationen vorenthalten, die sie auf Verlangen wieder vorwei- 
sen. Cochoy vernachlässigt aber die (möglichen) Konsequenzen, wenn Konsu- 
mentinnen QR-Codes einscannen: Das bloße »Anschauen« einer bestimmten 
Weinflasche wird durch die Verwendung der materiellen Infrastruktur von 
Smartphone, Kamera, App und Datenbank potenziell zu einem Datenevent 
und zu wertvoller Information für Marketer, Retailer oder Werbeplattformen. 
Hinsichtlich der Frage nach der Produktion von Daten sind solche »capt- 
ation devices« lehrreich. Sie sind zwar verführerisch und versuchen die Be- 
trachterin zu einer bestimmten Verhaltensweise zu motivieren und von ihren 
gewohnten Pfaden abzubringen, doch zwingen sie zu nichts. Es sind Offer- 
ten, eine Dateninfrastruktur zu betreten — oder auch nicht. Gerade diese 
Freiwilligkeit ermöglicht es, die Aktivierung als Signal zu interpretieren. 


»Capter«, to lure to oneself, is thus to paradoxically accept the possibility of 
strangeness, of departure or indifference, and even to allow one’s target free- 
dom: one has a greater chance of holding on to one’s prey or game, one’s 
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mistress or lover, a client or an elector, if the latter has the feeling that she is 
able to leave, to be unconcerned, to pass by. (Cochoy, 2007, S. 205)® 


Daten werden weder völlig freiwillig noch unter Zwang entäußert, wie im 
Anschluss an Cochoys Begriff der »captation devices« argumentiert werden 
kann. Die datengenerierende Handlung muss insofern »verführerisch« sein, 
als sie der Nutzerin interessant, lohnenswert oder verlockend genug erschei- 
nen muss. Die »Dispositionen« der Nutzerin müssen bei der Entwicklung 
solcher »captation devices« bereits in Betracht gezogen werden. Cochoy 
lässt digitale Empfehlungssysteme zwar unerwähnt, doch zeigt sich gerade 
in deren rekursiven Verknüpfung von Nutzerdispositionen, Datengenerie- 
rung und der Präsentation verlockernder Empfehlungen exemplarisch die 
Funktionsweise von »captation devices« wie auch von Empfehlungssystemen. 

Wie Nick Seaver (2018) argumentiert, befinden sich auch Empfehlungs- 
systeme im Zwischenraum von Zwang und Freiwilligkeit. Seaver mobilisiert 
den anthropologischen Begriff der Falle, um zu zeigen, wie Empfehlungs- 
systeme und Fallen als »persuasive technologies« funktionieren beziehungs- 
weise von ihren Erzeugern so konzeptualisiert werden. Gemäß Alfred Gell 
(1996) wohnt Fallen ein »Szenario« inne, das die Beziehung zwischen Jäge- 
rin und Beute in der Falle materialisiert und neu konfiguriert (Seaver, 2018, 
S. 6): »[a trap embodies a scenario] that binds these two protagonists tog- 
ether, and which aligns them in time and space« (Gell, 1996, S. 27). Emp- 
fehlungssysteme sind oftmals Teil digitaler Infrastrukturen. Sie sollen dafür 
sorgen, dass Nutzerinnen sich länger in der Infrastruktur - beispielsweise 
eines Musikstreamingdiensts, wie sie Nick Seaver erforscht hat - aufhalten. 
Dazu werden Infrastruktur und aus Nutzungsdaten abgeleitete Vorlieben der 
Nutzerin aufeinander abgestimmt: Die unterschiedlichen Möglichkeiten des 
Konsums werden für verschiedene Nutzerinnen unterschiedlich angeordnet, 
um der Hörerin den richtigen Song zum richtigen Zeitpunkt vorzuschlagen 
(siehe auch Eriksson & Johansson 2017; Prey 2016; Eriksson et al. 2019) und sie 
dadurch längerfristig an den Dienst zu binden. Der Erfolg in Form einer län- 
gerfristigen Bindung ist keineswegs gegeben: Verschiedene Arten von Fallen 
müssen ausprobiert und nachjustiert werden, indem gegebenenfalls das un- 
ternehmerische Verständnis der Nutzerinnen angepasst wird. Fallen fördern 


6 Im Extremfall sollen Nutzerinnen gerade nicht weggehen können. Siehe auch Karen 
Yeung (2017) zum Phänomen des »hypernudge« und Natasha Dow Schüll (2012) zur 
Frage, wie Glücksspielerinnen möglichst lange an Glückspielautomaten gehalten wer- 
den. 
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so gesehen die unternehmerische Fantasie dahingehend, wie Beziehungen 
zwischen Unternehmen und Nutzerinnen gefördert werden können. 


a trap is not simply the unilateral application of technical force, but rather a 
fundamentally uncertain effort to relate to others which thereby produces a 
world. We could say that infrastructures are already traps — arrangements of 
technique and epistemic frame designed to entice and hold particular kinds 
of envisioned agents, according to culturally specific cosmological precon- 
ceptions. The lesson, perhaps, is that »traps are predatory, but they are al- 
so productive: (Corsin Jiménez, nd: 3), not reducible to a simple moral tale 
about the wickedness of capture. (Seaver, 2018, S. 12) 


Seaver beschreibt die Einbettung von Empfehlungssystemen in spezifi- 
sche »cultures of capture«, die sich durch je eigene »theories of trapping« 
und »cosmological preconceptions« unterscheiden. In der Frühphase der 
Entwicklung von Empfehlungssystemen ab den 1990er-Jahren herrschte 
das »predictive paradigm«. Ausgangspunkt ftir Empfehlungssysteme des 
Typs »collaborative filtering« waren explizite, von den Nutzerinnen be- 
reits abgegebene Bewertungen von Dingen (Filme, Biicher, Produkte, etc.). 
Entscheidend für den Erfolg eines solchen Systemes war, möglichst exakt 
vorhersagen zu können, wie gut oder schlecht eine Nutzerin vorgeschlagene 
Dinge bewerten würde. 

Nach der Durchführung des Netflix-Wettbewerbs (siehe: Hallinan & Stri- 
phas 2016) zeigten sich die Grenzen dieses Ansatzes: Die implizite Annahme, 
»that [users] would be more satisfied by a system that could more accura- 
tely predict their ratings« und die dazugehörige Metrik der Vorhersagege- 
nauigkeit wurden zunehmend durch die Erkenntnis in Frage gestellt, dass 
Nutzerpräferenzen instabil sind: »A recommender could not predict a user's 
preference any more precisely than it was held, and if preferences varied si- 
gnificantly with time or setting, this posed a serious challenge to predictive 
accuracy« (Seaver, 2018, S. 9). 

An die Stelle der Vorhersagegenauigkeit von Bewertungen als Stellvertre- 
ter für Nutzerzufriedenheit rückten Messungen darüber, wie gut ein System 
die Aufmerksamkeit seiner Nutzerinnen halten kann: Engagement-Scores.’” 
Das Ziel von Empfehlungssystemen besteht dementsprechend darin, Nut- 
zerinnen durch geeignete Empfehlungen in der Infrastruktur zu behalten, 


7 Siehe auch Napoli (2012) zur Verschiebung von Ratings zu Engagment in der massen- 
medialen Publikumsforschung. 
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damit sie weiter konsumieren, Daten produzieren und bessere Empfehlun- 
gen gemacht werden können (wodurch mehr bezahlte Werbung geschaltet 
beziehungsweise Abo-Gebühren weiterhin entrichtet werden). 

Unter dem neuen Paradigma, das Nutzerzufriedenheit über »engage- 
ment« oder »user retention« misst, verlieren explizite Bewertungen als Daten 
an Bedeutung. Stattdessen gewinnen die kleinen, vermeintlich unbedeuten- 
den digitalen Verhaltensweisen wie Klicks oder Scrollen an Relevanz. Es in- 
teressiert nicht mehr primär, wie eine Nutzerin einen Film auf einer Skala 
von 1 bis 5 bewertet und wie korrekt diese Bewertung vorhergesagt wurde. 
Von Bedeutung ist jetzt, ob eine Nutzerin einen Film zu Ende gesehen hat 
oder in der Hälfte abbricht (siehe Alexander 2019) und ob sie am nächsten 
Tag wiederkommt. 


Logs of interaction data could be read as >implicit: ratings: users stopping a 
video partway through, skipping over recommended items, or listening to 
songs multiple times all became interpreted as ratings data. These data we- 
re more plentiful than explicit ratings, being generated by any interaction 
a user had with a system, and, in an interpretive move inherited from be- 
haviorism, they were also taken as more truthful than users’ explicit ratings. 
[...] Activity logs, interpreted through a behaviorist lens, became a privileged 
source of information about users, thanks both to their preponderance and 
their unwitting generation. (Seaver, 2018, S. 10) 


»Involvement des Members« 
Für Max, den strategischen Geschäftsführer von Earlybird, ist unternehmeri- 
scher Erfolg über ein hohes »Involvement des Members« definiert. Dieses »In- 
volvement« lasse sich bisher nicht richtig messen - »eigentlich« aber schon, 
weil sie ja sehen würden, wieviele Jugendliche sich für ihr Treue-Programm 
entscheiden. Das sei ein »indirektes Involvement«, das ihnen einen Nutzen 
bringt. Eigentlich müssten sie aber»den Member« dazu bringen, dass er mehr 
Angebote nutzt und »aktiver« wird. Nicht nur weil sie finden, dass er das sollte, 
sondern weil der Member selbst das wolle. Simon findet, dass dies Dinge sei- 
en, die sich messen liessen. Er fordert deshalb von Earlybird: »Definiert Kenn- 
zahlen!«. 

Der Junior Data Scientist Mike übernimmt später diese Aufgabe und defi- 
niert mit Mitarbeiterinnen von Earlybirds Marketingabteilung einen »mem- 
ber engagement score« und ein Dashboard, das über die Aktivitäten der 
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Member Auskunft gibt. Er zeigt mir eine Demoversion, die er mit dem R- 
Tool »Shiny« entwickelt hat. Für verschiedene Aktivitäten in der App erhalten 
Member eine bestimmte Anzahl Punkte-je nach dem, wie»relevant« die Ak- 
tivität eingeschätzt wird: Das Aufrufen des Menüs ergibt beispielsweise we- 
niger Punkte als einen Deal zu liken. 


Was sind die Konsequenzen dieses Paradigmenwechsels für die Generierung 
von Daten und die Generierung von Relationen? Was bedeutet es für die Da- 
tengenerierung, wenn zufriedene Nutzerinnen jene sind, die möglichst viel 
Zeit auf der Seite verbringen, möglichst aktiv sind und möglichst lange dabei 
bleiben? Aus Sicht der Datengenerierung sind die besten Nutzerinnen jene 
mit den größten »activity logs«. Das heißt: Viele Datenspuren sind sowohl 
ein Beweis für vengagement« als auch eine Ressource, um weiteres »engage- 
ment« zu erzeugen und die Nutzerinnen langfristig an sich zu binden. 

Diese Logik - wer aktiv ist, erzeugt viele Daten, ist engagiert und er- 
hält bessere Empfehlungen, die wiederum das Engagement aufrechterhal- 
ten - und ihre Zirkularitat zeigt sich insbesondere am bereits besprochenen 
Problem des Kaltstarts: In der Sprache von Cochoy besteht das Problem von 
»captation devices« darin, dass das Wissen über die »Dispositionen« von Nut- 
zerinnen erst in den »captation devices« (hier: Empfehlungssysteme) selbst 
produziert wird. 

Wie also bringen Unternehmen Nutzerinnen überhaupt erst in ihre In- 
frastrukturen? Diese Frage ist für Earlybird von zentraler Bedeutung. 


Personendaten als »missing commodity« bei Earlybird 

Beinahe jeder Lehrling und jede Studentin in der Schweiz hat eine Earlybird- 
Memberkarte in der Brieftasche. Vier Studenten gründeten 2005 das Unter- 
nehmen Earlybird, umjungen Leuten beim Sparen zu helfen. Kurz darauf ent- 
wickelte sich Earlybird zu einem Kundentreueprogramm für Banken in der 
ganzen Schweiz. Jugendliche, dieein Konto bei einer derteilnehmenden Ban- 
ken abschließen, werden automatisch zum Earlybird-»Member«. Als Member 
sind sie berechtigt, bei aktuell über 600 Partnerunternehmen Produkte und 
Dienstleistungen zu günstigeren Konditionen zu beziehen. Die Partnerunter- 
nehmen gewähren gemäß Vertrag einen »exklusiven« Rabatt und erhalten im 
Gegenzug Zugang zu den über 200 000 aktiven Membern. Damit verfügt Ear- 
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lybird in der Schweiz über einen einmaligen Zugang zur Kundengruppe der 
13- bis 30-Jährigen. 

Earlybird positioniert sich als Vermittler zwischen Banken, Partnerun- 
ternehmen und Membern. Ihr Ziel besteht darin eine »Win-Win-Win-Win- 
Situation«füralleAnspruchsgruppen und sich selbst zu schaffen. Dieeigentli- 
chen »Kunden« von Earlybird sind die Banken, die Earlybird für die Bereitstel- 
lung eines attraktiven Angebots zur Kundenbindung bezahlen. Auch »Part- 
ner« können zu Kunden werden: Einfache Partner stellen bloß Rabatte für 
Member zur Verfügung. Partner der Kategorie B bezahlen für ihre Präsenz in 
einem periodisch an die Member verschickten Rabattbüchlein. Mit Partnern 
der Kategorie A führt Earlybird spezifische Marketingaktionen durch, um ih- 
nen einen privilegierten Zugang zu den Membern zu gewähren. Die Member 
profitieren von über 4000 Deals. 

Earlybirds Terminologie der Member, Partner und Kunden verdeutlichtei- 
nen vermeintlichen Widerspruch, der sich auch bei Social-Media-Plattformen 
erkennen lässt. Gegen außen erscheinen die Memberals zentrale Instanz, um 
die sich bei Earlybird alles dreht (auf Social-Media-Plattformen sind es die 
»User«). Aus der Innenperspektive wird aber sichtbar, dass weder Member 
noch User die eigentlichen »Kunden« sind: Bei Facebook sind es Werbekun- 
den, die Umsatz generieren; bei Earlybird sind es Banken und zum Teil Part- 
ner. Bedeutet das, dass Member das Produkt sind, welches Earlybird an Ban- 
ken und Partner verkauft? 

Als ich meine Feldforschung bei Earlybird beginne, befindet sich das Un- 
ternehmen mitten in einem breitangelegten Transformationsprozess, derun- 
ter dem Motto steht, »soviel wie möglich über ihre Member zu wissen«: Wer 
sind sie, was kaufen sie, was mögen sie, wie und über welche Kanäle kom- 
munizieren sie? Waren die Member zuvor noch weitgehend unsichtbar und 
konnten relativ unbeobachtet die Leistungen von Earlybird und den Partner- 
unternehmen benutzen, erachtet Earlybird diese Unsichtbarkeit nun als Pro- 
blem. Mit Hilfe von digitalen Infrastrukturen wollen sie Member und ihre Ver- 
haltensweisen verstärkt sichtbar und fassbar machen. Das ist die Mission, mit 
der sie sich »future-proof« machen wollen. Eine zentrale Vision ist, dank Da- 
ten und Auswertungen die Member inimmer kleineren Einheiten ansprechen 
und mit relevanten Angeboten versehen zu können. Dazu benötigt Earlybird 
eine funktionierende und für die Member attraktive Dateninfrastruktur sowie 
kooperative Member, welche die Dateninfrastruktur traversieren und dabei 
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Daten hinterlassen, mit denen Earlybird das Angebot verbessern aber auch 
Partnerunternehmen zu Werbekampagnen verlocken kann. 

Für Earlybirds Vision, zu einer Plattform für Jugendmarketing zu werden, 
fehlt ihnen gemäß eigener Einschätzung vor allem eines: persönliche Daten 
über die Nutzerinnen. Earlybird hat zwar ein funktionierendes Geschäftsmo- 
dell aufgebaut, indem sie sich als Beziehungsbroker zwischen Banken undju- 
gendlichen Bankkundinnen sowie zwischen Partnerunternehmen und Mem- 
bern positionieren. Um ihren Partnerunternehmen aber zielgruppenspezifi- 
sche Marketingmöglichkeiten anbieten zu können, fehlt es an Daten, die eine 
Differenzierung der homogenen Gruppe der jugendlichen Member im Sin- 
ne eines »audience making« zulassen würden. Es wäre aber zu einfach, Early- 
bird als Datenproduzent und Member als Produkt zu bezeichnen: Earlybirds 
Geschäftsmodell besteht vielmehr in der Herstellung guter Beziehungen zwi- 
schen Banken, Partnerunternehmen und Membern (siehe Abbildung 2) — dar- 
an ändert auch die Digitalisierung des Geschäftsmodells nichts Grundsätz- 
liches. Im Gegensatz zum vorherigen Zustand, wird den Membern nun aber 
ebenfalls eine Leistung abverlangt. 

Earlybirds Member können von zahlreichen Rabatten profitieren, wenn 
sie in den Geschäften der Partnerunternehmen ihre Memberkarte vorweisen. 
Einzelne Partnerunternehmen mögen dies zwar digital erfassen, doch gibt es 
keinen systematischen und persönlich identifizierbaren Rücklauf dieser Da- 
ten. Das Anreizsystem, für das sie von den Banken bezahlt werden, funktio- 
niert und die Member können davon profitieren. Earlybirds strategisches Ziel 
istes, durch Digitalisierung und Daten von den Banken unabhängiger zu wer- 
den, d.h. mit digitalem Jugendmarketing einen weiteren Geschäftszweig auf- 
zubauen. Das steht aber noch in einiger Ferne. 

Um diesem Ziel näher zu kommen - das zeigt sich immer wieder in ver- 
schiedenen Sitzungen und Diskussionen —, muss Earlybird ein Problem über- 
winden: Die Member können alle Vergünstigungen nutzen, ohne dabei digitale Spu- 
ren zu hinterlassen. Member nutzen Rabatte oder besuchen Geschäfte von Part- 
nerunternehmen. Mangels technischer Infrastruktur verblieb und verbleibt 
dieses Verhalten aber offline. Deshalb bleiben Interessen, Vorlieben oder 
Transaktionen für Earlybird weitgehend unsichtbar. Verschiedene Versuche, 
über digitale Infrastrukturen wie Webseite, App und Bluetooth-Sniffer Daten 
zu generieren, führten nur zu mäßigem Erfolg (siehe auch die Box: »Implizite 
und explizite Daten« in Kapitel 7.1), da die Member ihre Daten nicht einfach 
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hergeben würden. Mit dem »roll-out« der neuen App besteht nun die Mög- 
lichkeit, zumindest einen Teil dieser Tätigkeiten sichtbar zu machen: »views« 
oder »likes« von »deals« oder Partnerunternehmen sowie Wettbewerbsteil- 
nahmen werden als Handlungsoptionen in der App so vorformatiert, dass Ear- 
lybird sie als »implizite« Daten erfassen kann. Dummerweise wird die App 
aber nur von einem kleinen Prozentsatz aller Member verwendet. Ein Zielvon 
Earlybird besteht deshalb darin, die Member dazu zu motivieren, die App zu 
benutzen. 

In verschiedenen Sitzungen und Gesprächen wird deutlich, dass Early- 
bird die Beziehung zwischen Unternehmen und Membern als Austausch ver- 
steht. Die Member können weder gezwungen noch einfach gebeten werden, 
Earlybird persönliche Daten zu geben. Das musste Earlybird in kostspieli- 
gen Maßnahmen herausfinden. Aber wenn die Bedingungen des Austauschs 
stimmen, können die Member durchaus mitteilsam werden. Diese Erkenntnis 
setzte sich im Nachgang an das Experiment mit den Wettbewerbsdaten von 
Simon durch: Die »schönen Daten« (siehe Kapitel 7, auch Mützel et al. 2018), 
die im Rahmen eines Wettbewerbes erzeugt werden konnten, wecken bei Ear- 
lybird Hoffnung und lassen sie die Frage stellen, was sie Membern bieten müs- 
sen, damit sie App und Webseite nutzen und ihre Daten hinterlassen. 

Im Laufe meiner Feldforschung setzte sich — angestoßen von Simons Da- 
tenexperiment-zunehmend die Erkenntnis durch, dass in der wenig genutz- 
ten App Wettbewerbe eine Ausnahmestellungeinnehmen. Earlybird fasst die 
Parole, bei Wettbewerben zukünftig stärker die Datengenerierung in den Fo- 
kus zu rücken. Bisher reichte es, bei den allermeisten Wettbewerben durch 
das Antippen des Feldes »Teilnahme« am Wettbewerb teilzunehmen. Dies 
generierte an sich schon Daten, doch stellte sich heraus, dass eine kleine Grup- 
pe besonders aktiver Member scheinbar wahllos allen Wettbewerben mit- 
machte, was die Aussagekraft der Daten verminderte. Angesichts der »schö- 
nen Daten«, welche der Reisewettbewerb generiert hatte, erschien Earlybird 
der simple Klick als unfaires quid-pro-quo, um eine Gewinnchance zu erhal- 
ten. Earlybird konzipierte Wettbewerbe beziehungsweise die Chance auf ei- 
nen Gewinn als geeignetes Mittel, um ihre Member dazu zu motivieren, die 
App zu nutzen und etwas über sich preiszugeben. Dieser Tausch ist für Early- 
bird umso lohnenswerter, da sie nur den Wettbewerb durchführen, nicht aber 
für die Preise aufkommen müssen: Die Preise werden von den Partnerunter- 
nehmen zur Verfügung gestellt. 
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Abb. 2: Earlybirds Geschäftsmodell 


6.3 Digitale Geschenke - und ihre Erwiderung 


Für Earlybird besteht die Schwierigkeit darin, seine Member in datengene- 
rierende Feedback-Loops hineinzuziehen. Nina beschreibt mit der Henne- 
Ei-Problematik das Dilemma, algorithmische Infrastrukturen überhaupt in 
Gang zu bringen. Earlybird versteht Nutzerinnen-»engagement« als Resultat 
eines »attachments« (Cochoy et al., 2017), das durch einen initialen Tausch 
von Geschenken gegen Daten potenziell zu einem ewigen Tausch von Ge- 
schenken gegen Daten gegen relevante Angebote gegen Daten und so weiter 
und so fort wird. Wenn Earlybird den Nutzerinnen die »richtigen« Angebo- 
te (i.e. personalisierte Empfehlungen, »inducement gifts«) macht, entstehen 
dauerhafte Beziehungen zwischen Nutzerinnen und Unternehmen: Nutze- 
rinnen »nutzen«, erzeugen weitere Daten, die wiederum via Steigerung von 
Engagement zur Vertiefung der Beziehung führen sollen. Nina formuliert 
das Kaltstart-Problem als Frage um, wie der »Kreislauf« der Datengenerie- 
rung gestartet werden kann, wenn noch keine Daten vorhanden sind. Da Ear- 
lybird bereits als Beziehungsbroker zwischen Banken, Membern und Part- 
nerunternehmen agiert und insbesondere die Beziehung von Membern und 
Partnerunternehmen als Austausch von Geschenken organisiert, ist es nahe- 
liegend, auch die Generierung von Personendaten über Geschenke in Gang 


zu bringen.® 


8 Siehe auch Hulsey & Reeves (2014) am Beispiel des »augmented reality«-Spiels Ingress: 
»Through its embedded game mechanics, Ingress encourages players to actively par- 
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Das Beispiel Earlybird - wie auch die Rhetorik und die Geschäftsmodelle 
von Start-ups und etablierten Tech-Unternehmen (Fourcade & Kluttz, 2020; 
Elder-Vass, 2016) — zeigt, dass die Kooperation von Nutzerinnen nicht ein- 
fach gegeben ist: Weder werden persönliche Daten einfach so und freiwillig 
»hergegeben« noch lassen sich Nutzerinnen zwingen, eine App, eine Web- 
seite oder eine bestimmte Software zu benutzen und dabei ihre persönlichen 
Daten zu hinterlassen. Earlybird beabsichtigt, die Produktion von Nutzerda- 
ten als Deals, die sich nicht ausschlagen lassen, zu organisieren.” Geschenke 
in Form von Gewinnchancen oder von speziellen Coupons sollen die Nut- 
zerinnen verlocken, die App zu benutzen. Darin besteht die Freiwilligkeit. 
Die Annahme des Geschenks ist gleichbedeutend mit der Erwiderung des 
Geschenks, da durch Wettbewerbsteilnahmen oder das Einlösen von Cou- 
pons die Personendaten bereits zustande gekommen sind. Darin besteht der 
Zwang. 


Digitale Coupons 

Schon bevor Earlybird seine Digitalisierungsstrategie ins Leben gerufen hat, 
war das Geschäftsmodell um die Erzeugung von Beziehungen zwischen Mem- 
bern und Partnerunternehmen herum organisiert. Etwas widersprüchlich 
ausgedrückt, ist Earlybirds großes Problem, dass dieses Geschäftsmodell 
funktioniert: Die Banken bezahlen Earlybird für ein attraktives Kundentreue- 
programm, die Partnerunternehmen erhalten Zugang zur Kundengruppe der 
Jugendlichen, die Jugendlichen erhalten Rabatte und Geschenke, welche die 
Partner offerieren. Die Einführung einer App, die Kunden- beziehungsweise 
Verhaltensdaten generieren soll, erweist sich als schwierig, weil dieses Modell 
auch ohne App funktioniert: Die Nutzerinnen brauchen bloß ihre Member- 
karte vorzuweisen, um in den Geschäften von Partnerunternehmen günstiger 
einkaufen zu können. 


ticipate in a surveillance community while also normalizing data mining and surveil- 
lance as a valid exchange for the privilege of play« (2014, S. 390). 

9 In Anlehnung an Marlon Brandos Figur aus »Der Pate«: »l'Il make him an offer he can't 
refuse«. Treffenderweise kann dies zwei Dinge gleichzeitig bedeuten: Das Angebot ist 
so gut, dass niemand es ablehnen könnte. Oder als Zwang: Die Folgen einer Ablehnung 
des Angebots sind potenziell so desaströs, dass es besser ist, das Angebot anzuneh- 
men. Die faszinierende Ambivalenz des Bonmots besteht in der Gleichzeitigkeit von 
Zwang und Freiwilligkeit (Livant, 2008). 
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Earlybird kommuniziert seinen Nutzerinnen, dass der Mehrwert der App 
in der Funktion »card-on-phone« bestehe. Anstelle die Karte aus der Briefta- 
sche hervorholen zu müssen, reicht es jetzt aus, das Smartphone aus der Ta- 
sche zunehmen, die App zu starten und zum entsprechenden Menüpunkt zu 
navigieren, um eine digitale Version der Memberkarte vorweisen zu können. 
Für die Member mag dies ein Vorteil sein, der sie dazu bewegt, die App zu in- 
stallieren. Für Earlybird liegt der Mehrwert der App aber explizit darin, Daten 
zu generieren. 

Zum Zeitpunkt meiner Feldforschung erfüllte die App primär zwei Funk- 
tionen (zwei weitere waren vorgesehen und in der Entwicklung). Erstens kön- 
nen Member durch Partnerunternehmen und deren Deals navigieren, ver- 
schiedene Filter (zum Beispiel geografische Filter) einsetzen, gezielt nach 
Deals oder Partnern suchen und Deals mit Herzchen versehen. So gesehen 
erfüllt die App die Funktion eines Kataloges oder einer Wunschliste, wel- 
che die Member praktischerweise immer bei sich haben. Im Vergleich mit 
Social-Media-Apps scheint Earlybirds App relativ statisch zu sein: Der News- 
feed von Social-Media-Nutzerinnen füllt sich stets mit neuen Beiträgen von 
Freundinnen, Veranstaltungshinweisen und personalisierter Werbung. In der 
Earlybird-App gibt es zwar die neusten oder momentan populärsten Deals, 
doch multiplizieren sich die Beiträge nicht in vergleichbarem Maße und der 
Recommender war zum Zeitpunkt meiner Feldforschung noch nicht imple- 
mentiert. Im Gegensatz dazu offeriert die zweite Funktion mehr: Per Tap 
können Jugendliche an einer großen Menge regelmäßig neu aufgeschalteter 
Wettbewerben teilnehmen. Diese Funktion wurde eifrig genutzt."© 

Auch wenn viele Jugendliche die App benutzen würden — was nicht der 
Fall war —, wäre das Hauptproblem noch nicht gelöst: Weder das Vorzeigen 
der materiellen Karte noch die »card-on-phone« ist ein Datenevent. »Digita- 
le Coupons« sollen hier Abhilfe leisten: Coupons, so die Idee, würden regel- 
mäßig in der App erscheinen - ausgelöst durch bestimmte »lifecycle-events« 
wie Geburtstage oder Spezialaktionen von Partnern. Wer einen Coupon an- 
klickt, hat einige Minuten Zeit, um den Coupon einzulösen, bevor er verfällt. 
Schaltet eine Nutzerin einen Coupon frei, interpretiert Earlybird diese Hand- 
lung als »Einlösen« des Coupons. Das spurenfreie Vorweisen einer Earlybird- 
Memberkarte genügt nicht mehr: Coupons sollen idealerweise die ansonsten 
für die Datenbank unsichtbaren Transaktionen der Member sichtbar machen. 
Entsprechend bestehtdasZielvon Earlybird darin, Membermitdigitalen Cou- 
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pons dazu zu motivieren, die App und deren weitere Funktionalitäten zu be- 
nutzen." 

In einem Gespräch mit dem Geschäftsführer von Earlybird Digital, der die 
Coupons technisch implementiert hat, frage ich nach, was aus diesen Coupons 
geworden sei, da sie während meiner Feldforschungsphase noch nicht »aus- 
geliefert« worden waren. Nik erklärt, dass der»Rücklauf« gering gewesen sei. 
Zu wenige Member würden die App benutzen. Earlybird müsse sich erst ein- 
mal darauf fokussieren, die Nutzerzahlen der App zu steigern. Wie ich einige 
Zeitspäter beobachten konnte, startete Earlybird einen neuen Versuch, Mem- 
bertransaktionen in die App zu verschieben und zu datafızieren: Dazu fahren 
sie die Anreize weiter hoch. In allen Filialen eines grossen Partnerunterneh- 
menssind an den Kassen nun QR-Codes angebracht, die beim Einkauf mit der 
Earlybird-App eingescannt werden können. Es erscheint dann ein Glücksrad, 
das die Member drehen können, um verschiedene Preise zu gewinnen. 


»Commodity economy« und »gift economy« schließen sich nicht kategorisch 


aus. Sie stehen in einem produktiven und oftmals hybriden Verhältnis zu- 


einander (Elder-Vass, 2016; Barbrook, 1998). Die Beziehungen der digitalen 


Ökonomie sind weder rein wirtschaftlich noch rein sozial, so wie ihre Öko- 


nomie weder rein ökonomisch noch eine reine Geschenkökonomie ist. 


Like the economy more generally, the contemporary digital economy is the 
site of a profusion of different economic forms, including many fascinating 
hybrids of more familiar forms. [...] Opportunities for gift forms of economy 
abound, but this space is also a prime target for the ever-expanding appetite 
of capital. (Elder-Vass, 2016, S. 223) 


Eine wirtschaftssoziologische Perspektive auf Plattformen (als Marktorgani- 


satoren) und Datenökonomie profitiert von Mauss’ Konzept der Gabenöko- 


nomie (Mauss, 1923; Elder-Vass, 2016, Kapitel 4): Die eindimensionale Per- 


Ich habe die Gruppe der Jugendlichen, die beinahe ausnahmslos an jedem Wettbe- 
werb teilnehmen, einmal »Gambler« genannt. Der Begriff hat sich intern offenbar 
durchgesetzt. 

Bei Twint, der größten Schweizer Mobile-Payment-App, lassen sich ähnliche Strategien 
beobachten: Es werden verschiedene Anreize gesetzt, überhaupt die App herunterzu- 
laden und aktiv zu gebrauchen - beispielsweise freie Guthaben. Wer die App startet, 
sieht folgende Meldung: Wer in den nächsten drei Wochen drei Zahlungen über Twint 
tätigt, nimmt automatisch an der Verlosung von 1000 Franken teil. 
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spektive, welche die Beziehung zwischen Unternehmen und Nutzerinnen auf 
Zwang reduziert (siehe oben), verpasst, wie mit Geschenken die Beziehun- 
gen zwischen Plattformen, Nutzerinnen und Dritten (Kundinnen, Entwick- 
lerinnen) initiiert und rekonfiguriert werden (Fourcade & Kluttz, 2020). In 
Datafizierungsprozessen dienen Geschenke in verschiedensten Formen (i.e. 
Freebies, Rabatte, personalisierte Angebote) als Generatoren einer Verwick- 
lung von Unternehmen und Nutzerinnen. 

Geschenke und Beziehungen erzeugen sich gegenseitig. Wie Mauss (1923) 
am Beispiel von Malinowskis Kula-Tausch beobachtet, erzeugen Geschenke 
gute Relationen zwischen den Stämmen. In seinem fundamentalen Essay zur 
Gabe stellt Mauss den Markt- und den Gabentausch einander gegenüber, um 
zu zeigen, dass nicht nur Märkte Koordinationsleistungen erbringen kön- 
nen. Während die marktbasierte Ökonomie auf diskreten Transaktionen be- 
ruht, aus denen idealtypischerweise keine weiteren Beziehungen oder Ver- 
pflichtungen folgen, zeichnen sich Geschenkökonomien durch Kreisläufe von 
zirkulierenden Geschenken aus. Während nach einer Markttransaktion von 
Ware gegen Geld die Beziehung beendet ist, zielt der Gabentausch gerade 
auf das Etablieren und Erhalten von Beziehungen, die dann den sozialen 
Kontext bilden, in dem auch Markttransaktionen stattfinden können. 


»Im Grunde sind also selbst diese Gaben zum größten Teil Gegenleistungen 
und werden nicht nur gegeben, um Dienste oder Sachen zu bezahlen, son- 
dern auch, um ein nutzbringendes Bündnis aufrechtzuerhalten, das nicht 
einmal abgelehnt werden kann.« (Mauss, 1990a, S. 168) 


In der Geschenkökonomie geht es um den Aufbau und den Erhalt von Bezie- 
hungen. Kalkulationsverbote (Latour & Callon, 1997) oder die sorgfältige Ver- 
meidung ausgeglichener Leistungsbilanzen (Graeber, 2001, 2011) verhindern, 
dass die Parteien jemals verrichteter Dinge auseinandergehen könnten: »no 
party can call it quits« (Latour & Callon, 1997, S. 11). In einer Geschenköko- 
nomie sind die Teilnehmenden durch »Schulden«, die Unmöglichkeit oder 
das Verbot von Berechnungen dauerhaft miteinander verwickelt: »Ihe more 
people and goods circulate, the stronger the associations between them will 
be, and the more they will be connected to each other« (Latour & Callon, 
1997, S. 11, Seitenangaben der unpublizierten englischen Übersetzung). 
Geschenke schaffen stabile Beziehungen, aus denen sich Märkte entwi- 
ckeln können. Das ist das »markets from gifts«-Argument. Marion Fourcade 
und Daniel Kluttz (2020, S. 3) heben hervor, dass ökonomische Transaktio- 
nen und Märkte in vielen Fällen als »acts of generosity« entstehen, die nicht 
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direkt erwidert oder zurückgezahlt werden müssen: Bevor es zu ökonomi- 
schen Transaktionen kommen kann, müssen Interessen geweckt und soziale 
Verpflichtungen erzeugt werden - oftmals mit Geschenken -, wie Asaf Darr 
und Trevor Pinch (2013) am Beispiel von Computerverkäufen zeigen. 

In einer Auseinandersetzung mit der Frage, ob Googles Dienstleistungen 
Geschenke an die Nutzerinnen sind, unterscheidet Dave Elder-Vass (2016) 
verschiedene Formen des Schenkens als Untertypen des »inducement gift«: 
marketing gifts, solicitation gifts und loaded gifts. Diese haben gemeinsam, 
dass sie freiwillige Gegengeschenke oder Markttausch motivieren sollen: »In- 
ducement gifts are given in order to induce a further transaction or transac- 
tions that provide greater value to the giver than the original gift. [...] Any 
return by the recipient is voluntary, but the gift is nevertheless designed to 
produce such a return« (Elder-Vass, 2016, S. 176). 

»Marketing gifts« sind Geschenke, die so gestaltet sind, dass sie nicht mit 
einem Gegengeschenk erwidert werden, sondern mit dem Eingehen eines 
»market exchange«. Als Beispiel beschreibt Elder-Vass die Strategie, Koch- 
bücher zu verschenken, in denen bestimmte Zutaten wie »Jell-O« prominent 
vorkommen. Um die Rezepte auszuprobieren, mussten die Kundinnen diese 
Produkte erst erwerben. Ein Beispiel, das der digitalen Ökonomie näher ist, 
wären kostenlose Handy- oder Computerspiele, die In-App-Käufe anbieten, 
um im Spiel schneller zum Ziel zu kommen oder gegenüber anderen Spie- 
lerinnen einen Vorteil zu haben. Der Nutzwert solcher »marketing gifts« 
erfährt durch anschließende Käufe eine signifikante Steigerung. 

Im Falle der »solicitation gifts« nutzen Schenkende kulturelle Erwartungen 
der Reziprozität aus. Ein Bettler, der Rosen verschenkt, kann sich - wenn 
auch nicht in jedem Fall - darauf verlassen, von den Beschenkten im Ge- 
genzug ein monetäres Geschenk zu erhalten: »Ihe effectiveness of solici- 
tation gifts depends on the cultural associations they invoke: in particular 
the expectation of fair reciprocity that is built into some types of giving« 
(Elder-Vass, 2016, S. 177). Obwohl diese Form des Schenkens Ähnlichkeiten 


12 Siehe zum Beispiel Bhatia (2016) zu Facebooks Anstrengungen, mit »gratis Internet« 
in Indien Fuss zu fassen: »Facebook’s growth and partnership teams persuaded mo- 
bile phone companies in the Philippines, Latin America, Africa and India to give mo- 
bile phone users who had not paid for data plans free access to Facebook. The initial 
financial sacrifice, Facebook told the phone companies, was an investment - giving 
customers a small taste of the internet would convince them to start paying to access 
everything the web had to offer« (2016). 
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zum Markttausch aufweist, ist das Gegengeschenk nicht primär durch das 
Bedürfnis nach dem ursprünglichen Geschenk motiviert, sondern »by a sen- 
se of normative obligation« (Elder-Vass, 2016, S. 177). Digitale »solicitation« 
macht sich extrem niedrige Grenzkosten zu Nutze und beruht auf dem Mo- 
dell der »shareware« - kostenlos verfügbare Software, die mit regelmäßigen 
Pop-ups oder auf der Startseite darauf aufmerksam machen, dass ein mo- 
netäres Gegengeschenk angebracht wäre. Wikipedias alljährliches Ritual, die 
Nutzerinnen vor Weihnachten um Spenden zu ersuchen, damit Wikipedia 
kostenlos und werbefrei bleiben kann, ist ein Beispiel dafür, wie solche Re- 
ziprozitätsnormen angezapft werden können.” 

Der für die Datenökonomie interessanteste Fall sind sogenannte »loaded 
gifts«: »gifts whose acceptance or use automatically entails a return that is 
in a sense hidden, or at least an implicit rather than an explicit element of 
the process« (Elder-Vass, 2016, S. 179). »Loaded gifts« sind deshalb belastet, 
weil die Annahme des Geschenks bereits das Gegengeschenk darstellt. Bei- 
spielsweise fallen Gratiszeitungen in die Kategorie der »loaded gifts«, weil 
die Annahme einer Ausgabe die Zirkulation der Zeitung und damit den Wert 
für Werbekundinnen erhöht (siehe Smythe 1977 zur »audience commodity«). 
Als paradigmatisches Beispiel der digitalen Ökonomie präsentiert Elder-Vass 
Googles Suchfunktion, die den Nutzerinnen ermöglicht, schnell und kosten- 
los mehr Informationen zu finden. Gleichzeitig nötigt die Suchfunktion die 
Nutzerin, für Google wertvolle Interesse in Form von Suchbegriffen mitzu- 
teilen. 

Geschenke können eine wichtige Rolle dabei spielen, Nutzerinnen über- 
haupt in digitalen Datafizierungsinfrastrukturen einzuschleusen und sie 
darin zu behalten. Marion Fourcade und Daniel Kluttz verweisen darauf, 
dass »digital firms see cyber-gifts as a key to the primitive accumulation 
process — a crucial means by which to extract valuable troves of personal 
or organizational data« (Fourcade & Kluttz, 2020, S. 7). Das heißt, dass 
Digitalunternehmen die Beziehung zwischen Unternehmen, Nutzerinnen 
und Dritten als ein »give-to-get« konzipieren: freie Dienstleistungen im 
Austausch gegen Personendaten. Das spezifische am digitalen Gabentausch 
liegt darin, dass das Geschenk der Personendaten überhaupt erst durch das 
Eingehen der Relation entsteht: 


13 Die Webseite des Guardian machte mich darauf aufmerksam, dass ich im vorigen Jahr 
885 Artikel gelesen hätte und eine Spende möglicherweise angebracht sei. 


6 Erstes Moment 


This more capacious concept allows us to acknowledge that, while structu- 
rally framed as gift-like, relationships in digital capitalism are more ambi- 
guous in the sense that (a) things given away are nonetheless »traded« for 
something (even if it is something that did not exist before the relationship 
was initiated); and (b) this trade, from the point of view of the user, is often 
misrecognized as no trade at all, or it may even be brushed off as a steal, a 
»bargain.< By embedding the obligation to repay into the original gift itself 
[...] the Maussian bargain not only masks the structural asymmetry between 
giver and gifted but also permits the creation of the new commodity of per- 
sonal data, obfuscates its true value, and naturalizes its private appropriati- 
on. (Fourcade & Kluttz, 2020, S. 3) 


Der springende Punkt für Momente der Datafizierung ist, dass der digitale 
Gabentausch von Leistungen gegen Daten so organisiert ist, dass das ur- 
sprüngliche Geschenk und das Gegengeschenk der Daten im selben Moment 
ausgetauscht werden (müssen): Das eine geht nicht ohne das andere. Et- 
was weniger abstrakt heißt das: Unternehmen offerieren ihren Nutzerinnen 
ein Anfangsgeschenk (zum Beispiel ein kostenlos nutzbarer Social-Media- 
Account), das den Kreislauf der Reziprozität in Gang setzt. Die Nutzerinnen 
erwidern dieses Anfangsgeschenk, indem sie es benutzen. Da es sich dabei 
um ein Softwareprodukt handelt, das verschiedene vorgefertigte und for- 
malisierte Verhaltensmöglichkeiten anbietet (siehe Kapitel 7), entstehen Per- 
sonendaten, die bereits das Gegengeschenk konstituieren. Die Nutzer und 
ihre Daten können dann auch vom Unternehmen an Dritte weiter verschenkt 
werden: Zum Beispiel an Software-Entwicklerinnen, die im Gegenzug wei- 
tere Interaktionsmöglichkeiten für die Plattform entwickeln (und diese so 
für die Nutzerinnen attraktiver machen). »This gift-based infrastructure 
literally creates the missing commodity, the thing to be exchanged [...]«, 
i.e. Personendaten (Fourcade & Kluttz, 2020, S. 5). Personendaten werden in 
»engineered reciprocal obligations« geschaffen, in Kreislaufen der generali- 
sierten Reziprozitat (siehe auch Bearman 1997). Sie beruhen zum einen also 
auf Beziehungen zwischen Unternehmen und Nutzerinnen. Sie werden aber 


14 Der Fall von Cambridge Analytica und Facebook ist ein einschlagiges Beispiel dafür. 
Cambridge Analytica entwickelte ein Persönlichkeitsquiz, wie sie auf Facebook vor ei- 
nigen Jahren beliebt waren. Im Gegenzug dafür, die Social-Media-Plattform für Nut- 
zerinnen attraktiver gemacht zu haben, überließ Facebook Cambridge Analytica die 
durch das Quiz generierten Nutzerdaten (vor allem Freundschaftslisten und Big-5- 
Scores, die durch das Ausfüllen des Quiz errechnet wurden). 


93 


94 


Markus Unternährer: Momente der Datafizierung 


auch dazu eingesetzt, diese Beziehungen aufrechtzuerhalten und fortzufüh- 
ren. 

Der Geschäftsführer von Earlybird Digital bringt es in einem Artikel auf 
LinkedIn auf den Punkt: 


Täglich erhalte ich Kataloge und Prospekte von unzähligen Firmen in mei- 
nem Briefkasten. Ich bin diesen Firmen treu. Ich kaufe dort immer wieder 
ein. Ich hinterlasse mit jedem Einkauf Daten über mich. Wenn ich schon Da- 
ten freiwillig hinterlasse, dann wünsche ich mir, dass Unternehmen diese nutzen 
und mir durch relevante Information helfen Zeit zu sparen. Die meisten Unter- 
nehmen, von denen ich freiwillig Post erhalte, haben den Unterschied nicht 
verstanden, dass sie nicht mehr um mich Werben müssen, sondern mir ei- 
gentlich »nur< Empfehlungen auszusprechen brauchen - und ich werde kau- 
fen. (Nik auf LinkedIn, Hervorhebung im Original). 


Gegenüber den Nutzerinnen stellen sich die Angebote digitaler Unterneh- 
men als Schnäppchen dar, insbesondere wenn sie die Form von Geschenken 
haben.” Die strukturelle Asymmetrie zwischen Unternehmen und Nutze- 
rinnen wird dadurch verdeckt, dass die Annahme des Geschenks nicht nur 
die Verpflichtung zur Erwiderung enthält, sondern bereits die Erwiderung 
(in Form von Daten) darstellt. Digitale Angebote, die nicht abgelehnt wer- 
den können, erscheinen Nutzerinnen als »free gifts« - oder zumindest als 
»Schnäppchen«. Sie können zwar abgelehnt werden, doch sind sie so gebaut, 
dass sie nicht unerwidert bleiben können, da die Annahme des Geschenkes 
bereits das Gegengeschenk darstellt. 


15 Ob Nutzerinnen das tatsächlich so wahrnehmen, kann ich hier nicht nachweisen. Wie 
Mary Douglas (1990) in ihrem Vorwort zur englischen Übersetzung von Marcel Mauss’ 
»The Gift« (1990b) argumentiert, lassen sich die Empfängerinnen von vermeintlichen 
»free gifts« aber nicht so einfach über die durch Geschenke entstehenden Verpflich- 
tungen hinwegtäuschen. Wie beispielsweise Tanya Kant (2020) zeigt, existieren ver- 
schiedene Strategien, um persönliche Daten zu verbergen oder zu verschleiern (siehe 
auch Brunton & Nissenbaum 2015). Dies deutet darauf hin, dass solchen Nutzerinnen 
die Bedingungen des Tauschs von Dienstleistung gegen Daten nicht gerechtfertigt zu 
sein scheinen. 


7 Zweites Moment: Singularität 
und Vergleichbarkeit 


Momente der Datafizierung - das haben wir im vorigen Kapitel ge- 
sehen — zeichnen sich dadurch aus, dass in ihnen Geschenk und Ge- 
gengeschenk zusammenfallen: Indem Nutzerinnen das Geschenk des 
Unternehmens annehmen, liefern sie gleichzeitig das Gegengeschenk der 
persönlichen Daten. Während ich im letzten Kapitel die Beziehung zwi- 
schen Unternehmen und Nutzerinnen diskutiert habe, geht es jetzt um die 
spezifische Qualität von Personendaten als Gabe und Ware zugleich - d.h. 
um die Frage, wie Personendaten zugleich unentfremdbar und entfremdet 
sein können beziehungsweise singuläre Handlungen von Individuen und 
zugleich generische, vergleichbare Verhaltensweisen von Nutzerinnen. Im 
Anschluss diskutiere ich zwei Varianten der Datafizierung, welche die 
Singularität von digitalen Handlungen »technisch ignorieren« und diese so, 
wenn nicht zum Verschwinden bringt, sie zumindest unsichtbar macht. 
Die erste Variante der Datafizierung ist genuin digital. In ihr werden 
Verhaltensweisen bereits als digitale, verrechenbare Daten »geboren« (7.2). 
Eine zweite Variante macht Verhaltensweisen »after the fact« zu Daten, 
wie ich am Beispiel der Vektorisierung zeige (7.3). Die Gemeinsamkeit 
besteht darin, dass Verhaltensweisen in beiden Fällen zu Daten und dadurch 
vergleichbar gemacht werden. 


7.1 Singulare Verhaltensweisen 


Personendaten verweisen als Spuren auf situierte Verhaltensweisen und Be- 
deutungen, welche die Handelnden damit verbinden. Was auch immer diese 
Bedeutungen und Kontexte sind: Damit Personendaten als Daten funktionie- 
ren können - d.h. unterschiedliche Verhaltensweisen soweit gleich machen, 
dass sie vergleichbar sind - muss von diesen Bedeutungen abstrahiert wer- 
den. Einerseits sollen Daten »echt« sein, d.h. durch authentische Verhaltens- 


96 


Markus Unternährer: Momente der Datafizierung 


weisen authentischer Nutzerinnen zustande kommen. Andererseits werden 
Bedeutungen und Sinninvestitionen von Nutzerinnen weitgehend ignoriert. 
Das Wissen, dass Verhaltensweisen authentischer Ausdruck des Selbst oder 
der sozialen Beziehungen der Nutzerinnen sind, reicht aus. Welche Bedeu- 
tungen die Nutzerinnen konkret damit verbinden, ist irrelevant. Wichtiger 
ist, dass damit gerechnet werden kann. 


»Schöne Daten« 

Eine Variante, an Memberdaten zu kommen, besteht darin, Member direkt 
danach zu fragen. Das hat Earlybird vergeblich versucht: Wenn ich mich als 
Member auf der Webseite anmelde und die Einstellungen meines Profils an- 
klicke, komme ich auf eine Seite, auf der ich Earlybird meine Interessen direkt 
angeben kann: Zu vier Uberkategorien (zum Beispiel: »Lifestyle«) existieren 
jeweils mehrere Unterkategorien. Für die Überkategorie »Lifestyle« sind das 
»Reisen«, »Sport«, »Theater/Kultur«, »Fashion«. Diese kann ich jeweils mit ei- 
nem Häkchenals»interessiertmich«markieren. Zu Earlybirds Bedauern taten 
das nur sehr wenige Member -— trotz teurer »Kommunikationsmaßnahmen«. 

Auf Simons Anregung hin — oder in seinen Worten: seinen »Predig- 
ten« —, traf Earlybird eine »strategische Entscheidung«: Es sollen möglichst 
keine weiteren Ressourcen in die Erhebung von »expliziten Daten« gesteckt 
werden. Solche expliziten Daten, die Interessen und Präferenzen direkt ab- 
fragen, sind für Earlybird zu »teuer«, weil sie mit aufwendigen »Kommunika- 
tionsmaßnahmen« verbunden sind, um Member aufzufordern und zu moti- 
vieren, ihr Profil aufder Webseite auszufüllen. »Von alleine« gehe keiner auf 
diese Profilseite, um »das anzukreuzen«, sagt Beni.’ Beni erläutert, was mit 
»impliziten Daten« gemeint ist: Implizit heiße, Informationen ließen sich aus 
dem »Verhalten eines Members« oder daraus, was »er uns Preis gibt«, durch 
»Analysen ableiten«. 

Inder Literatur zu Empfehlungssystemen, aufdie mich Dani hinweist, fin- 
de ich weitere Hinweise zur Unterscheidung von impliziten und expliziten Da- 
ten. Gemäß Michael Ekstrand et al. (2011, S. 129 ff.) sind explizite Daten von 
den Nutzerinnen eines Empfehlungssystems explizite geäußerte Präferen- 
zen-zum Beispiel wiegutjemandeinen Film aufeiner Skala von 1 bis 5 bewer- 
tet. Im Kontrast dazu: »implicit»ratings<are inferred by the system from obser- 
vable user activity, such as purchases or clicks« (Ekstrand et al., 2011, S.129).? 
Der Nachteil von expliziten Daten liege darin, dass oftmals eine Diskrepanz 
zwischen geäußerten Präferenzen und dem, was die Nutzerinnen tatsächlich 
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mögen, bestehe: »a discrepancy between what the users say and what they 
do« (Ekstrand et al., 2011, S. 130). Ekstrand & Willemsen (2016) legen dar, dass 
in der Entwicklung von Empfehlungssystemen ein behavioristisches Paradig- 
ma dominantsei, das sich nicht mehr auf Umfragen oder ethnografische Ana- 
lysen verlasse, um Nutzungsweisen zu analysieren, sondern das »tatsachli- 
che« Nutzerverhalten bevorzuge -»ignoring [stated] preference when it dis- 
agrees with behavior« (2016: 221).? 

Die Unterscheidung von expliziten und impliziten Daten ist für Earlybird 
aber nicht in erster Linie als technische Unterscheidung zentral. In Earlybirds 
Praxis und dem, was Simon im Rahmen des Datenexperiments (siehe Kapi- 
tel 5) »schöne Daten« nennt, verschwimmt die Unterscheidung. Die»schönen 
Daten« müssen explizit erfragt werden, doch steckt in ihnen mehr als die blo- 
ßen Informationen darüber, wohin die Teilnehmerinnen reisen und was sie 
dort tun möchten. Es sind—in Benis Verständnis — auch implizite Daten, weil 
sie auf latente Sinngehalte und Potenziale verweisen. 


Was macht Daten zu »schönen Daten«? 

In den Daten-Diskussionen bei Earlybird kristallisieren sich drei Gründe her- 
aus, wieso der betreffende Datensatz »schön« ist. Die drei Aspekte der Schön- 
heit von Daten entsprechen je einem Moment der Datafizierung. 

Erstens fallen Freitextantworten nicht automatisch als Nebenprodukt des 
Gebrauchs von digitalen Infrastrukturen an: Die Member müssen auch hier 
über spezifische »Kommunikationsmaßnahmen« zur Teilnahme und Preis- 
gabe von Informationen motiviert werden. Im Fall des Wettbewerbs hat das 
quasi »zufällig« geklappt — ohne technische Vorrichtungen zur »Qualitatssi- 
cherung«, wie Simon sagt. Das wirft für Earlybird die Frage auf, wie man diesen 
Erfolg replizieren könnte und welche »Anreize« sie Membern bieten müssen. 
Wie im letzten Kapitel beschrieben, positionieren sie die Chance auf einen 
Gewinn als Motivator und Tauschgegenstand. Für Simon ist klar, dass es sich 
bei den Wettbewerbsantworten um explizite Daten handelt. Es sei schwierig, 
aber möglich, »explizite Praferenzen« zu erfragen -wie die Wettbewerbsant- 
worten zeigen sogar in»unfassbarer Qualität«. Diese unfassbare Qualität ver- 
weistim ersten Moment darauf, dass Member unter den richtigen Umständen 
bereit sind, etwas von sich preiszugeben (siehe Kapitel 6). Die meisten Teil- 
nehmerinnen gaben ausführliche Wettbewerbsantworten, obwohl das gar 
nicht nötig gewesen wäre, um am Wettbewerb teilzunehmen. Niemand ge- 
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be auf der Seite von Earlybird seine Präferenzen an. Hier hätten die Teilneh- 
merinnen aber mit Begeisterung Antworten gegeben, so Simon. Der Wettbe- 
werb machte aus unmotivierten Membern motivierte Teilnehmerinnen, die 
Daten im Austausch gegen eine Gewinnchance preisgeben. 

Zweitens verweist die Begeisterung der Teilnehmerinnen auf einen wei- 
teren Aspekt der Schönheit: Die Teilnehmerinnen waren »intrinsisch moti- 
viert«, wie Max sagt. Was meint er damit? Die Quasi-Umfragen, die sie auf 
ihrer Profilseite durchgeführt hatten, waren für die Member bedeutungslos: 
Sich für ein Unternehmen in Konsumkategorien »einzureiheng, ist keine Tä- 
tigkeit, die Jugendliche für sich ausüben. Sich darüber Gedanken zu machen, 
wohin man reisen möchte und was man dort alles fürtolle Dingetun wird hin- 
gegen schon, wie Earlybird spekuliert. Die»Schönheit« von schönen Daten be- 
steht darin, dass die registrierten Verhaltensweisen auf »echte«, für die Nut- 
zerinnen selbst bedeutungsvolle, Handlungen verweisen. Das macht die Frei- 
textantworten aber auch zu singulären, unvergleichbaren Äußerungen, die 
sich nur unter großem Aufwand maschinell weiterverarbeiten lassen. Wie ich 
weiter unten zeige (7.3), ersetzen Simon und sein Team den soziale Kontext 
des Wettbewerbs durch einen abstrakten Vektorraum. Darin erscheinen die 
verschiedenen Antworten als geometrische Repräsentationen, die sich in Be- 
zug auf ihre Ähnlichkeit und Differenz vergleichen lassen. 

Der dritte Aspekt der Schönheit besteht darin, dass die Daten in einem 
weiteren Sinne auf »etwas anderes« verweisen (siehe auch Kapitel 8). Early- 
bird interessiert sich nicht per se dafür, wohin die Teilnehmerinnen reisen 
möchten -auch wenn das vielleicht im Interesse eines Partnerunternehmens 
ist, mit dem der Wettbewerb durchgeführt wurde. Earlybird möchte wissen, 
welche kategorialen Zugehörigkeiten sich in den Freitextantworten verber- 
gen. Sie sprechen den Daten das Potenzial zu, neue Relationen zwischen 
Membern und Dingen (beziehungsweise den Deals von Partnerunternehmen 
und potenziellen Werbepartnern) begründen zu können. Mit den Wettbe- 
werbsdaten sei es möglich, Earlybirds brachliegende Marketingsegmente zu 
reaktivieren. Bisher habe die Möglichkeit gefehlt, Membern zuverlässig Seg- 
menten zuzuordnen. Aus den ausführlichen und persönlichen Texten der teil- 
nehmenden Member, so Simons Idee, ließe sich die Zugehörigkeit zu den Seg- 
menten ableiten. Die expliziterhobenen Daten könnten aufimplizite katego- 
riale Zugehörigkeiten hinweisen. In diesem Sinn istes nicht der manifeste In- 
halt der Freitextantworten, sondern die latente und kalkulierbare, kategoria- 


7 Zweites Moment 


le Zugehörigkeit, aufwelche die Daten hinweisen und die durch eine Analyse 
manifest gemacht werden können - so die Hoffnung von Earlybird. 

Simon-dersich gemäß Beni nicht nur als Mathematikprofessor, sondern 
auch als Verkäufer sehr gut machen würde — versteht es, das Potenzial dieser 
Daten zu kommunizieren. Seine Begeisterung wirkt ansteckend: Simon kann 
Earlybird anhand der Schönheit und des Sinnüberschusses der Wettbewerbs- 
daten davon überzeugen, ein Datenexperiment zu finanzieren. 


Die Sinnüberschüsse der Verhaltensdaten bestehen darin, dass sie als Spuren 
von Nutzerinnen gelesen werden, die auf subjektiv bedeutsame Handlungen 
ihrer Urheberinnen verweisen. Earlybirds Problem besteht vor allem darin, 
den Nutzerinnen eine Infrastruktur für Verhaltensweisen, die sie eigenmoti- 
viert ausüben möchten, anbieten zu können. Mit den Freitextantworten des 
Wettbewerbs hat das »zufälligerweise« geklappt. 

Christian Rudder, Gründer der Datingseite OkCupid, bringt diese Pro- 
blemlage auf den Punkt: Die Verhaltensweisen im Onlinedating müssen so 
formalisiert werden, dass Computer sie verstehen können. Gleichzeitig müs- 
sen sie den Nutzerinnen aber weiterhin als mehr oder weniger natürliche, 


»echte» Verhaltensweisen erscheinen:* 


1 Simon gibt ein anderes Beispiel für die teure Erhebung expliziter Daten. Ein schweizer 
Einzelhändler hatte einen Brief an alle Mitglieder seines Kundenbindungsprogram- 
mes geschickt, um Geburtstagsdaten abzufragen. Offenbar sei das Geburtsdatum für 
diesen Retailer wichtig, um »Zielgruppen« zu identifizieren und individuelles »Profil- 
ing« zu machen. Das sei eine »teure Variante des Data Cleaning«, könne aber unter 
Umständen gerechtfertigt sein, erklärt Simon (siehe auch Mützel et al. 2018, S. 122). 

2 Siehe auch Thurman & Schifferes (2012, S. 776). 

3 Ekstrand/Willemsen (2016) kritisieren diese Praxis, die Nutzerinnen zu »ignorieren«. 

4 Die »Echtheit« der Nutzerinnen und ihrer Verhaltensweisen ist auch für Facebook zen- 
tral (Bivens, 2017). Am 30. Juni 2012 gab Facebook bekannt, dass der Anteil falscher 
Profile auf 8.7 Prozent angewachsen sei. Zur Zeit von Facebooks Börsengang am 18. Ju- 
ni 2012 waren es noch fünf bis sechs Prozent gewesen. In den ersten drei Monaten als 
börsengehandeltes Unternehmen fiel Facebooks Börsenwert auf knapp die Hälfte der 
38 US-Dollar bei Börsengang. Aktuell werden falsche Profile vor allem als politisches 
Problem behandelt: Als Verbreiter und Verzerrer der öffentlichen Meinung. Für Face- 
book stellen sie aber ein ökonomisches Problem dar: »Facebook’s marketable product 
is a user base of»real«peoplethatcan be targeted with the help of increasingly granular 
data« (Bivens, 2017, S. 884). »Authentic identity« ist zentraler Bestandteil davon, wie 
Facebook Wert generiert, wie sie in ihrer IPO-Broschüre festhalten: »Authentic identi- 
ty is core to the Facebook experience, and we believe that it is central to the future of 
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Algorithms don't work well with things that aren't numbers, so when you 
want a computer to unterstand an idea, you have to convert as much of it as 
you can into digits. The challenge facing sites and apps is thus to chop and 
jam the continuum of human experience into little buckets 1, 2, 3, without 
anyone noticing: to divide some vast, ineffable process — for facebook, fri- 
endship, for Reddit, community, for dating sites, love - into pieces a server 
can handle. At the same time you have to retain as much of the je ne sais quoi 
of the thing as you can, so the users believe what you're offering represents 
real life. (Rudder, 2014, S. 13) 


Auch Shoshana Zuboff sieht zwischen Formalisierung und »subjectivities« 
der Nutzerinnen einen Konflikt, wenn sie den Wert von Personendaten in 
ihrem Verweis auf »subjectivities« sieht. Unternehmen wie Google nehmen 
aber gegenüber ihren Nutzerinnen eine Position der »formal indifference« 
ein, die individuelles Verhalten abflacht und auf »bits« reduziert. 


These subjectivities travel a hidden path to aggregation and decontextua- 
lization, despite the fact that they are produced as intimate and immedia- 
te, tied to individual projects and contexts (Nissenbaum, 2011). Indeed, it is 
the status of such data as signals of subjectivities that makes them most va- 
luable for advertisers. For Google and other >big data: aggregators, however, 
the data are merely bits. Subjectivities are converted into objects that repur- 
pose the subjective for commodification. Individual users’ meanings are of 
no interest to Google or other firms in this chain. (Zuboff, 2015, S. 79) 


Zuboff vertritt hier eine Position, die in Referenz auf Zelizer als Varian- 
te des »hostile worlds«-Arguments verstanden werden kann: Um komplexe 
und vielschichtige Nutzeraktivitäten zu Datensätzen zu machen, braucht es 
gewissermaßen den versachlichenden Blick des Markts, um den affektgela- 
denen, digitalen Handlungen der Nutzerinnen ihr Leben zu entziehen: Der 
»kalte Blick« der formalen Indifferenz reduziert die warmen Aktivitäten der 
Nutzerinnen auf ihr Skelett. Demgegenüber hält es Kylie Jarrett (2015) für 


the web. Our terms of service require you to use your realname and we encourage you 
to be your true self online, enabling us and Platform developers to provide you with 
more personalized experiences« (zitiert in: Bivens 2017, S. 885). Auf Facebook den rich- 
tigen Namen zu verwenden und auch online das »wahre Ich« zu sein (beziehungsweise 
von Facebook dazu motiviert zu werden), ist eine Funktionsbedingung ftir Facebooks 
Businessmodell. Es beruht auf der Annahme, dass sich in unseren digitalen Verhal- 
tensweisen unser »echtes Selbst« dokumentiert (siehe auch boyd 2014). 
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notwendig, beides gleichzeitig denken zu können: Unternehmen wie Face- 
book müssen ihren Nutzerinnen die Ausübung von sinn- und affektgelade- 
nen, digitalen Verhaltensweisen ermöglichen, die für die Nutzerinnen selbst 
bedeutsam sind. Obwohl diese Sinnüberschüsse weitgehend weggearbeitet 
und ignoriert werden müssen, um mit den dadurch entstehenden Daten 
rechnen zu können, sind sie doch elementar dafür, Nutzerinnen zu mo- 
tivieren. Ansonsten hätten wir es mit einem für Nutzerinnen langweiligen 
Anklicken von Kästchen und Ausfüllen von Fragebögen zu tun. Wie Earlybird 
erfahren musste, ist das nicht etwas, was Nutzerinnen begeistert. 

Jarrett schlägt vor, die Tätigkeiten von Nutzerinnen digitaler Plattfor- 
men analog zur Reproduktionsarbeit zu verstehen, um einen Antagonismus 
zwischen Markt und Intimität, Ware und Geschenk sowie Produktion und 
Reproduktion zu vermeiden. Sie beschreibt im Anschluss an Leopoldina Fort- 
unati (1995) ein Zwei-Phasen-Modell der Werterzeugung für Social Media. So 
wie der männliche Arbeiter auf weibliche Reproduktionsarbeit angewiesen 
ist, um seine eigene Arbeitskraft als Ware für den Markt reproduzieren zu 
können, ist auch der Werterzeugungsprozess von Personendaten auf nicht- 
kommodifizierte Arbeit angewiesen. Wenn das Verhaltensrepertoire für Nut- 
zerinnen bedeutungslos ist oder sich niemand auf der Seite aufhält, kommt 
die Zirkulation neuer Inhalte und die Produktion von Personendaten ins Sto- 
cken. Verhaltensweisen auf Facebook haben gleichzeitig »use-value« für die 
Nutzerinnen und »exchange-value« für die Plattform, wie es Jarrett formu- 
liert: 


We »like< things first and foremost because we like them, and it is this use- 
value that produces the impetus to use and continue to use the site; that 
produces the instantiated capacity to generate user data. Thus, Facebook can 
only convert the >labor-power< of user experience (living labor) into the com- 
modified form of user data (labor-time) after its experience as inalienable 
use-value by the user. [...] 

»Liking< a friend’s status update continues to manifest an inalienable and af- 
fectively powerful social relationship, or even asserts a political statement. 
Thus, while the generation of user data on Facebook is implicated in the capi- 
talist valorization process, it cannot accurately be described as an inherently 


101 


Markus Unternährer: Momente der Datafizierung 


exploitative or wholly commodified process. (Jarrett, 2014, S. 20f., Hervorhe- 
bung im Original)> 


Der »Trick« von Personendaten besteht also gerade darin, dass sie beides 
gleichzeitig können: Sie verweisen als Spuren immer auf »mehr«, auf etwas, 
das außerhalb ihrer selbst steht, d.h. die Sinninvestitionen oder der »use- 
value« der Nutzerinnen selbst. Dieses Mehr ist Gegenstand einer ausführ- 
lichen Datenkritik, die einen Reduktionismus der Datafizierung bemängelt 
(Gitelman, 2013; Puschmann & Burgess, 2014) aber darauf hinweist, dass Da- 
ten diesen Kontext immer irgendwie mittragen (Seaver 2015; Loukissas 2019; 
Leonelli 2019, siehe auch: Kapitel 2). Dieses Mehr begründet den Wert der 
Daten und motiviert Nutzerinnen zur weiteren Nutzung, muss aber zeitwei- 
se »ignoriert« werden, um diesen Wert zum Vorschein zu bringen. 

Während die Benutzeroberfläche für Nutzerinnen bedeutungsvolle 
Verhaltens- und Kommunikationsoptionen zur Verfügung stellt, werden 
auf der technischen Hinterbühne die sozialen Kontexte und subjektiven 
Bedeutungen aus den Verhaltensdaten weggearbeitet, um sie zu einer 
»entfremdeten« Ware oder Ressource zu machen. Die Sinnüberschüsse be- 
ziehungsweise die »subjectivities« der Nutzerinnen sind zentral, um weitere 
Verhaltensweisen zu motivieren, verhindern aber deren Vergleichbarkeit 
(Heintz, 2010) beziehungsweise Kommensurabilität (Espeland & Stevens, 
1998). Grundsätzlich gilt, dass die Kontinuität des gelebten Alltags und 
gelebter Identitäten in diskrete Kategorien und Handlungsweisen übersetzt 
oder als solche erst geschaffen werden müssen (Alaimo & Kallinikos, 2017), 
damit Verhaltensweisen datafiziert oder alternativ kommodifiziert werden 
können. 

Im Folgenden beschreibe ich zwei Varianten, wie diese Vergleichbarkeit 
technisch hergestellt wird: Die erste besteht darin, Verhaltensweisen und ih- 
re Registrierung über »encoding« (Alaimo & Kallinikos, 2017, 2016) zu verei- 
nen. Die zweite Variante stellt Vergleichbarkeit her, nachdem Verhaltenswei- 
sen registriert wurden. Beide Varianten »kommodifizieren« Verhaltenswei- 


5 Hier ließe sich ein ganzer Forschungszusammenhang anfügen, der sich mit der Fra- 
ge von Medienkonsum als Arbeit (Smythe, 1977) beziehungsweise der Nutzung von 
Web-2.0-Angeboten und Social Media als Arbeit befasst (Terranova, 2000; Fuchs, 2014; 
Ekbia & Nardi, 2017). Von Bedeutung wäre insbesondere die Frage, wie Social-Media- 
Plattformen den Austausch ihrer Nutzerinnen als unentfremdete Arbeit und Tätigkeit 
instrumentieren und motivieren, um den Motor von Verhaltens- und Datengenerie- 
rung am Laufen zu halten. 
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sen: Sie lösen sie aus ihrem bestehenden sozialen Kontext heraus, befreien 
sie von subjektiven Bedeutungen und machen sie zu einer Ressource für 
Analysen (bei Alaimo & Kallinikos 2017: »computation«) und Vergleiche, um 
neue Relationen abzuleiten (siehe dazu Kapitel 8).6 


7.2 Encoding 


Mit dem Begriff »Encoding« bezeichnen Alaimo & Kallinikos (2017, 2016) 
die digitale Standardisierung von Verhaltensweisen, durch die Nutzerinnen 
oder Dinge (zum Beispiel Beiträge auf Social Media) vergleichbar gemacht 
werden. 

Auf digitalen Benutzeroberflächen ist jede Handlungsoption vorgege- 
ben: Im Code einer Webseite, einer App oder eines Streamingdiensts ist 
im Detail bestimmt, welche »Aktionen« die Nutzerinnen ausführen können. 
Nutzerinnen »interagieren« mit »Objekten« und erzeugen dadurch »Rela- 
tionen«. Aus welchen Einheiten, Aktionen und Relationen die digitale Welt 
besteht, muss dementsprechend im Voraus von Programmiererinnen und 
User-Experience-Designerinnen festgelegt werden. Bevor ich also überhaupt 
etwas auf Facebook tun kann, muss Facebook Entscheidungen darüber tref- 
fen, was erwünschte Handlungen sind - zum Beispiel »like«, aber nicht »dis- 
like«. Diese erwünschten Handlungen müssen dann in der Sprache der Be- 
nutzeroberfläche (»blauer Daumen hoch«) und in der Sprache der Datenbank 
(User X likes Object Y) artikuliert und in ein formales Modell von Userver- 
halten übersetzt werden: Der »like« wird darin als Handlung definiert, die 
User und bestimmte erlaubte Objekte - Kommentare, Posts und Brands, aber 


6 Jens-Erik Mai (2016) unterscheidet das Überwachungsmodell und das Capture-Modell 
(beruhend auf Agre 1994): Das Überwachungsmodell betrachtet Daten als getreue 
Wiedergaben des Beobachteten. Das Capture-Modell geht davon aus, dass technolo- 
gische Apparaturen nicht nur beobachten und wiedergeben, sondern das Beobachtete 
auch verändern (Mai, 2016, S. 198). Im ersten Fall werden bereits bestehende, von der 
Beobachtungsapparatur relativ unabhängige Phänomene bloß registriert. Im zweiten 
Fall sind die Beobachtungsapparaturen gleichzeitig Infrastrukturen, die das zu regis- 
trierende Verhalten überhaupt erst ermöglichen: Sie stellen Benutzeroberflächen zur 
Verfügung, in denen die Nutzerinnen nach vorgefertigten »grammars of action« han- 
deln können. Aktivität wird dabei so restrukturiert, dass sie mit ihrer formalen Reprä- 
sentation übereinstimmt (Agre, 1994, S. 105-107). Oder weniger zugespitzt: Die Welt 
und ihre Repräsentation entwickeln sich Hand in Hand (Berg, 1997, S. 409-410). 
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nicht andere Nutzerinnen - in eine »like«-Relation setzt.” Das bedeutet, ich 
kann auf Facebook nur im Rahmen der vorprogrammierten Möglichkeiten 
handeln. Der Vorstrukturierung von Aktivitäten auf der Ebene der Nutzer- 
oberfläche entspricht eine Modellierung dieser Aktivitäten in der Datenbank: 
Objekte wie Nutzerinnen, Posts oder Produkte sind über »actions« wie »li- 
ke« oder »share« verbunden, die in der Datenbank Relationen zwischen den 
Objekten erzeugen.® 

Die mythologisierende Rede des Sammelns von Daten basiert auf diesem 
Prozess der Infrastrukturierung von alltäglichen sozialen Verhaltensweisen 
(Alaimo & Kallinikos, 2019; Gerlitz & Helmond, 2013): Sobald Nutzerinnen 
die instrumentierten Verhaltensweisen wie den »like« als legitime Verhal- 
tensweisen akzeptieren und ausführen, erscheinen solche Aktivitäten nicht 


7 Nur weil der »like« als vorprogrammierte, digitale Verhaltensweise zur Verfügung 
steht, heißt das aber noch nicht, dass »liking« auch tatsächlich eine für die Nutzerin- 
nen bedeutsame Verhaltensweise ist, die sie von sich aus ausführen: »The people who 
engage in the articulated activity are somehow induced to organize their actions so 
that they are readily »parsable< in terms of the grammar« (Agre, 1994, S. 110). 

8 Kent (2012) hebt die vielen kontingenten Entscheidungen hervor, die in die Gestaltung 
von Datenbanken eingehen: Wie wird die soziale Welt in »entities«, »relationships« 
oder »attributes« formalisiert? In seinem Buch »Data and Reality — A timeless perspec- 
tive on perceiving and managing information in our imprecise world« beschreibt Wil- 
liam Kent, welche Probleme sich bei der »representation of information in computers« 
ergeben (Kent, 2012, S. 28). Selbst bei so »einfachen« Dingen wie dem Wareninventar, 
Personaldateien oder Bankkonten müssen zahlreiche Fragen beantwortet werden, die 
trivial zu sein scheinen: Was ist»ein« Ding? Wie viele Dinge sind es? Was ist es? Für wie 
lange? Kent zeigt an ganz alltäglichen Beispielen, wie voraussetzungsreich es ist, die 
Einheit und Differenz der Dinge zu bestimmen. Zum Beispiel: Wie ist damit umzuge- 
hen, wenn es mehrere Kopien des gleichen Buchs in der Bibliothek gibt? Immer wieder 
betont Kent die »arbitrariness« der Entscheidungen, die Programmierer bei der Mo- 
dellierung der chaotischen und kontinuierlich verlaufenden Realität treffen müssen. 
Graeme Simsion, Autor von »Data Modeling Essentials« (2007) und »Data Modeling: 
Theory and Practice« (2013), schreibt im Vorwort zur Neuauflage von Kents »Data and 
Reality«: »William Kent uses the word [arbitrary] throughout the book [...] to characte- 
rize some of the most important decisions that data modelers make. The boundaries 
of an entity are arbitrary, our selection of entity types is arbitrary, the distinction bet- 
ween entities, attributes, and relationships is arbitrary« (Kent, 2012, S. 13). Leider habe 
sich daran kaum etwas geandert: Die grundlegenden Probleme seien immer noch die 
gleichen. Es werden zwar neue Formalismen entwickelt, doch der Fokus liege auf dem 
Vergleich der verschiedenen formalisierten Modelle und nicht auf den grundlegende- 
ren Fragen, die Kent aufgeworfen hat. 
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Abb. 3: Datenrelationen (nach: Alaimo & Kallinikos 2016, S. 81) 


mehr als »Erfindung«, sondern können » entdeckt« und beobachtet werden, 
als würden sie natürlich auftauchen.? 


Encoding does not record transactions, or simple online behavior (e.g., time 
spent on Web pages or clickthrough rates); it does not record prior facts, 
which it then places online, nor does it categorize existing social activities 
(we do not usually »follow« friends offline). Rather, encoding creates the ac- 
tions that users are invited to perform and records the performance of such 
actions into distinct data fields. In this regard, it establishes the terms of user 


9 Auch historische Beispiele verdeutlichen, dass sich Daten nicht einfach auffinden las- 
sen, sondern erzeugt werden müssen, um die »Welt der digitalen Computer« und die 
»Welt der Menschen« zu koppeln (Gugerli, 2018, S. 50). So schrieben Ridenour & Brown 
(1953, S. 80): »appropriate input and output equipment to couple the world of the di- 
gital computer to the world of men often does not exist«. Um beispielsweise einen 
Computer für die Buchhaltung verwenden zu können, müsse erst ein »tiefes Verstand- 
nis« der Aktivität der Buchhaltung vorliegen und Mittel und Wege zur Verfügung ste- 
hen, um dem Computer die relevanten Informationen zu übergeben. Es handelt sich 
also um ein Problem der Formalisierung von Tätigkeiten, die in diskrete Teiltätigkeiten 
zerlegt werden müssen. Ein Problem der »Formatierung«, wie Gugerli schreibt: »Das 
Formatieren von Daten war mithin die conditio sine qua non, um unterschiedlichste 
Handlungsfelder an die Fähigkeiten des Rechners anzupassen« (Gugerli, 2018, S. 49- 
59). 
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platform participation and involvement through the structuring of the user 
interface. (Alaimo & Kallinikos, 2017, S.177)'° 


Christina Alaimo und Jannis Kallinikos stellen fest, dass sich digitale Hand- 
lungen und ihre Beobachtung verdichten. Am Beispiel von Social Media (Alai- 
mo & Kallinikos, 2016, 2019) und Webshops (Alaimo & Kallinikos, 2017) zeigen 
sie, wie Handlung und Beobachtung immer näher zusammenrücken und in 
digitalen Infrastrukturen zusammenfallen. Carolin Gerlitz betont, dass die 
Aktivität und die Erfassung dieser Aktivität gleichzeitig als zwei Seiten einer 
Medaille stattfinden: 


Friending, following, liking, commenting, sharing or favoriting allows users 
to act in prestructured form in the front end whilst at the same time pro- 
ducing equally prestructured data points in the back end. (Gerlitz, 2017, S. 
242) 


Encoding erméglicht die Gleichzeitigkeit subjektiv bedeutsamer Verhaltens- 
weisen auf der Nutzeroberflache und einer »formal indifference« in der Da- 
tenbank. Ich kann auf ironische Art das Buch »Harry Potter und der Feuer- 
kelch« auf Facebook »liken«, um einem befreundeten Harry-Potter-Fan, mit 
dem ich tags zuvor itber die kulturelle Relevanz von Harry Potter gestritten 
hatte, ein Signal zu senden. Dadurch entsteht eine formale Relation in der 
Datenbank, die nicht zwischen meinem »ironischen« und einem ernst ge- 
meinten Like unterscheiden kann. Differenzen in der Gebrauchsweise des 
Likes lassen sich so einebnen. Die Bedeutung, die Facebook mit einem Like 
verbindet, muss nicht dieselbe sein, welche User damit verbinden. Facebook 
mag den Like als positive emotionale Reaktion definieren. Die User müs- 
sen diese Deutung aber keineswegs teilen. Ein Like kann ironisch, als Le- 
sezeichen oder als Geschenk in einer reziproken Like-Ökonomie (Romele & 
Severo, 2016) vergeben werden, wie es zwischen Jugendlichen üblich ist.” 


10 Gerade in Bezug auf Social-Media-Plattformen wie Facebook ist diese Reorganisation 
menschlicher Aktivität besonders evident: Die von Facebook vorgegebenen Verhal- 
tensangebote wie »friending« oder »liking« erscheinen zwar wie Alltagsaktivitäten, 
sind in ihrer Anwendung aber grundsätzlich nicht vorgefundene und bloß registrierte, 
sondern von Facebook erzeugte Aktivitäten. Wie danah boyd (2006) am Beispiel von 
Myspace zeigt, entstehen dabei ganz neue Handlungsprobleme, wenn beispielswei- 
se Social-Media-Nutzerinnen entscheiden müssen, welche ihrer Freunde zuoberst in 
ihrer Freundesliste erscheinen. 

11 Paßßmann & Gerlitz (2014) beschreiben beispielhaft, wie die Like-Funktion auf Twitter 
erst von findigen Nutzerinnen erfunden und später von Twitter integriert wurde. Sie 
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Die Stärke und der Wert des Likes als formalisierte »action« bestehen gera- 
de darin, dass auf der Seite der User interpretative Flexibilität möglich ist 
und auf der Seite der Datenbank die Handlung des Likens gleichzeitig so 
standardisiert ist, dass unterschiedlichste User über ihre Likes vergleichbar 
werden: »Defining an individual user as an aggregation of likes immediate- 
ly renders the individual qua likes commensurable to other individuals qua 
likes« (Alaimo & Kallinikos, 2017, S. 179). 

Die Datenbank wird damit zum zentralen Produktionsmittel, das Nut- 
zerinnen (und Objekte) als datafizierte Relationen von Nutzerinnen und Ob- 
jekten herstellt, welche standardisiert und vergleichbar sind und sich für 
weitere Bearbeitungsschritte anbieten: 


By capturing consumer activities ubiquitously and in minute detail, databa- 
ses become repositories of complex consumer lives by turning behavior into 
abstract aggregates of individualized and individualizing data points. Once 
consumption has been dematerialized and been made available as coded, 
standardized and manipulable data, there are no more limits to the cons- 
truction of difference, to classification, and to social sorting. (Zwick & Dene- 
gri Knott, 2009, S. 222) 


Die Vorstrukturierung möglicher Verhaltensweisen immunisiert die Daten- 
produktion gegen die subjektiven Deutungen der Nutzerinnen und ermög- 
licht damit die Produktivität von Daten, die nun für unterschiedlichste Zwe- 
cke genutzt werden können: Zum Beispiel für die Analyse der Plattform- 
aktivitäten (z.B. an welcher Stelle verlassen User regelmäßig die Plattform), 
die Optimierung der Benutzeroberfläche (siehe Holson 2009 für Marissa 
Mayers »41 Shades of Blue«-Anekdote) oder die Berechnung von Scores und 
Affinitaten/Interessen, auf deren Basis Werbung angezeigt oder Empfehlun- 
gen ausgesprochen werden können (siehe Kapitel 8 und 10 zur Art und Weise, 
wie diese Daten weiterverarbeitet werden können). 

Bisher bin ich davon ausgegangen, dass Nutzerinnen sich immer schon 
in Datafizierungsinfrastrukturen befinden. Das nachfolgende Beispiel von 
Earlybird zeigt, dass der Formalisierungsprozess der Nutzerinnen und ihrer 
Verhaltensweisen schon früher einsetzt. In Bezug auf die Nutzerinnen zeige 
ich im Folgenden, wie sie durch verschiedene »infrastrukturelle Quanten- 
sprünge« von Personen zu Membern und dann zu »Nutzerinnen« werden, 


zeigen, dass für unterschiedliche Nutzergemeinschaften der »Twitter-Fav« ganz unter- 
schiedliche Bedeutungen haben kann. 
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denen encodierte Verhaltensweisen zur Verfügung stehen (siehe auch Kapitel 
10.4). 


Eintreten ins »Earlybird-Universum« 

Personen begeben sich in Dateninfrastrukturen hinein oder werden in sie hin- 
eingezogen. Dort durchlaufen sie (im Falle von Earlybird) verschiedene Kate- 
gorien: Erst das Eröffnen eines Jugendkontos macht aus normalen Jugend- 
lichen »Earlybird-Member«. Kommen sie aus dem bezugsberechtigten Alter 
heraus oder ktinden sie ihr Konto, werden sie von aktiven Membern zu pas- 
siven Datenbankobjekten. Member, welche die App herunterladen, sich an- 
melden und tatig werden, indem sie Deals anschauen, liken oder bookmar- 
ken, werden zu Nutzerinnen. Wer die App genügend oft benutzt, kann zu ei- 
nem »engaged user« werden. Wer genügend Informationen mitteilt, kann im 
Vergleich mit anderen einer bestimmten Kategorie zugeordnet werden (sie- 
he Kapitel 10.4). Die verschiedenen Jugendlichen werden durch infrastruktu- 
relle Siebe”? geschüttet, so dass genügend Homogenisierung erreicht werden 
kann, um Differenzen zwischen den Jugendlichen beobachten zu können. Die 
Metapher des Siebs ist aber auch triigerisch: Ob die Jugendlichen ein Sieb pas- 
sieren oder nicht, ist möglicherweise weniger von tatsächlichen Eigenschaf- 
ten oder Verhaltensweisen abhängig als vielmehr davon, was für die Daten- 
bank sichtbar ist. 


Das Sieb der Banken: Member 

Die Datenbank von Earlybird umfasst mehr als 200 000 Personen in der 
Deutschschweiz. Sobald ein Jugendlicher ein Jugendkonto bei einer teilneh- 
menden Bank abschließt, übermittelt die Bank Personendaten an Earlybird: 
Die Person wird zu einem Earlybird-Member, sobald Name, Adresse und Ge- 
burtstag von der Datenbank, dem Excel-File oder der Liste der Bank in die Da- 
tenbank von Earlybird wandert. Die Kundengewinnung ist Sache der Banken: 
Sie übernehmen das Marketing für ihreJugendkonten, wobei der Verweis auf 
Earlybirds Geschenke ein zentrales Argument ist, wie die Jugendwerbung ver- 
schiedener Banken nahelegt. Die Überweisung neuer Member an Earlybird 
geschieht zunehmend reibungslos: Viele Banken verfügen über Protokolle 
mit Earlybird, die den Prozess automatisieren. 


12 Der Begriff der infrastrukturellen Quantensprünge ist an Zerubavel (1996) angelehnt, 
der die Überbrückung kategorialer Grenzen als »mental quantum leaps« bezeichnet. 
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Das Sieb des Alters: Aktive und passive Member 

Sobald Jugendliche in der Datenbank von Earlybird angekommen sind, wer- 
den sie zu Membern. Earlybird sendet ihnen per Post und Email (zu Beginn 
und dann periodisch) Hinweise auf aktuelle Angebote, den Link zur Websei- 
te und zur Installation der App. Zusätzlich erhalten sie jedes Jahr eine Kun- 
denkarte, welche sie zum Bezug vergünstigter Angebote bei den verschiede- 
nen Partnerunternehmen berechtigt. Wer sein Konto auflöst oder aufgrund 
des Alters (die Grenze istje nach Bank verschieden und liegt zwischen 26 und 
30 Jahren) die Berechtigung verliert, verbleibt zwar in der Datenbank, erhält 
aberin einem spezifischen Statusfeld den Eintrag: »passiv«. Damitendetauch 
die Berechtigung zur »Aktivität«: Der Bezug von Earlybirds Rabattangeboten 
oder die Teilnahme an Wettbewerben ist den berechtigten »aktiven« Mem- 
bern vorbehalten. Der Wert im Statusfeld aktiv/passiv entscheidet über die 
aktuelle kategoriale Zugehörigkeit im Earlybird-Universum. 


Das Sieb des Logins: User und Nicht-User 

Es können zwar sowohl Member als auch Nicht-Member die App herunterla- 
den, doch wird die volle Funktionalität nur freigeschaltet, wenn die im Login- 
prozess eingegebene Telefonnummer in der Datenbank vorhanden und nicht 
mit dem Passiv-Flagim Statusfeld versehen ist. Das ist zumindest die Idealvor- 
stellungvon Earlybird. Die Gestaltung des Loginprozesses erweistsich aber als 
nicht so einfach. In einer Arbeitssitzung zum Loginprozess warnte Sabina: Die 
Zuordnung über die Telefonnummer funktioniere nicht, wenn sie ein »Daten- 
ghetto« hätten. Sie fügte an: »Und das haben wir!«. Es stellte sich heraus, dass 
eine der Banken verlangt habe, zusatzliche Telefonnummern in den Member- 
datensatz aufzunehmen. Seither gebe es Probleme mit diesem Daten-»Gü- 
sel«: Member seien doppelt vorhanden. Bei manchen seien falsche Nummern 
angegeben. 


Das Sieb der encodierten Verhaltensweisen 

Der Loginprozess und die Telefonnummern sind für Earlybird von zentraler 
Bedeutung, weil die Telefonnummer als »unique identifier« der User dient. 
Schaut sich eine Nutzerin Deals oder Partnerunternehmen an, vergibt Likes 
oder nimmt an Wettbewerben teil, soll dies als Tätigkeit dieser spezifischen 
Nutzerin registriert werden. Dies funktioniert nur, wenn sie eindeutig identi- 
fiziertwerden kann. 
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Wie das Tracking-Schema der App zeigt (siehe Abbildung 4), haben Mem- 
ber in der App oder auf der Webseite zahlreiche Méglichkeiten mit verschie- 
denen Objekten wie Deals, Notifikationen oder Wettbewerben zu interagie- 
ren. Tun sie das, entsteht in der Datenbank eine »view«-, »like«- oder »use«- 
Relation zwischen der spezifischen Nutzerin und beispielsweise einem Deal, 
den sich die Nutzerin angesehen, gelikt oder eingelöst hat. Die Handlungs- 
optionen und ihre»Bedeutungen«sind formal im Tracking-Schema festgelegt 
(siehe Abbildung unten oder sehr zugänglich in Bezug auf Datenmodelle bei 
Kent 2012), das darüber Auskunft gibt, wie das Verhalten der Nutzerinnen in 
der Datenbank abgelegt wird. 

Als ich das Tracking-Schema fotografierte, arbeitete Earlybird gerade an 
einer zweiten Version der App. Dani, Junior Data Scientist bei Earlybird Digi- 
tal, bemerkte eine Unstimmgekeit in der letzten Version der App: Wer einen 
Partner likt, likt automatisch auch alle Deals, die dieser Partner anbietet. In 
einem Konzeptpapier für ein Empfehlungssystem führt er weiter aus: 


Because the system does not track interaction with the deal, but with 
its partner, all the preferences expressed for a partner are applied to 
all its deals. This is unfortunate, because it is not clear that the user 
actually would have expressed also, e. g. a like for another deal of the 
same partner. [...] The data collection in the new version of the app will 
track the preference for a deal and not for its partner. 


Dieses Problem soll in der nächsten App-Version gelöst werden, so dass eine 
Deal-Like nicht mehr automatisch als Partner-Like interpretiert wird.'* 

Die formale »Bedeutung« von digitalen Verhaltensweisen ist in der Da- 
tenbank festgelegt. In Diskussionen um die Interpretation von Partner-Likes 
oder auch einfachen Likes zeigen sich aber auch bei Earlybird »interpretati- 
ve Flexibilität« beziehungsweise eifrige Diskussionen darüber, was ein»Herz- 
chen« bedeutet: Bedeutet ein Like für einen Partner, dass die Nutzerin alle sei- 
ne Deals mag? Ist ein Like wirklich Ausdruck einer Praferenz oder eher eine 
Art Lesezeichen, um spater etwas wieder aufzufinden? Diese Frage kann pro- 
blemlos offen bleiben. 


13 


Zum Sieben als Metapher für eine Anthropologie der Algorithmen siehe Kockelman 


2013; Maurer 2013. 
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Abb. 4: Das Tracking-Schema der Earlybird-App 


7.3 Vektorisierung 


Nicht alle Verhaltensweisen von Nutzerinnen werden auf eine so strukturier- 
te Weise registriert, wie Alaimo und Kallinikos (2017) es unter dem Begriff 
»encoding« beschreiben. Sie argumentieren, dass sich unstrukturiere Da- 
ten wie Texte, Bilder, Videos oder Audio grundlegend davon unterscheiden 
(siehe Kitchin 2014 im Allgemeinen und Bechmann & Bowker 2019; Buolam- 
wini & Gebru 2018; Crawford & Paglen 2019 zu Bildern; zu Musik siehe wei- 
ter unten). Dieser »user generated content« (Beer & Burrows, 2007; Bruns, 
2008; Ritzer & Jurgenson, 2010; Ekbia & Nardi, 2017) bildet die Kristallisa- 
tionspunkte der Nutzerpartizipation in sozialen Netzwerken wie Facebook, 
Tumblr, Twitter, etc., ist aber nicht »encodiert«: 


14 Christian Sandvig (2014) zeigt, wie Facebook diese Art von Uneindeutigkeit sogar zu 
nutzen weiß, um ein »like-recycling« zu betreiben. Ein Like für einen Beitrag einer be- 
stimmten Quelle wie beispielsweise das Vice-Magazine wurde von Facebook als Like 
aller zukünftigen Beiträge von Vice interpretiert. Oder ein Like eines Kommentars zu 
einem Artikel erzeugte eine Relation zwischen Nutzerin und Artikel, obwohl der Like 
für den Kommentar abgegeben wurde. 


m 
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It is important, however, to distinguish between the content, say, of the 
uploading or posting (what users generate as content) and the very act of 
uploading or posting that content (social data). (Alaimo & Kallinikos, 2017, 
S. 177) 


Wahrend durch »encoding« die Verhaltensweisen der Nutzerinnen schon im- 
mer »maschinenlesbar« und so gesehen vergleichbar beziehungsweise kom- 
mensurabel sind, müssen unstrukturierte, von Nutzerinnen generierte In- 
halte erst maschinenlesbar gemacht werden.” Wie im vielzitierten und auch 
in meinem Feld verwendeten Handbuch Data Science for Business. What You 
Need to Know about Data Mining and Data-Analytic Thinking von Provost & Faw- 
cett (2013) sind gerade über Freitextfelder erfasste Textdaten fehleranfällig 
und »verschmutzt«. Deshalb müssen eine Vielzahl von datenbereinigenden 
Arbeitsschritten unternommen werden (zum Beispiel das Entfernen von ir- 
relevanten »stopwords« oder »stemming«, d.h. die Reduktion der verschie- 
denen Wortformen auf ihre Stammform). Am Ende des Aufbereitungspro- 
zesses stehen Daten in »a nice format, like something with columns: na- 
me | event | year | gender | event time« (Schutt & O'Neil, 2013, S. 41) (siehe 
zu »messy data« und zum Prozess der Datenaufbereitung auch: Mützel et al. 
2018). 

Das grundlegende Problem unstrukturierter Daten besteht darin, die- 
se kontinuierlichen Phänomene diskret zu machen: Wie Gitelman & Jack- 
son (2013) argumentieren, ist der Prozess der Imagination von Daten immer 
auch ein Kategorisierungsprozess, der aus einer amorphen Realität Formen 
definiert. Datafizierung heißt, sich die Welt aus Datenpunkten bestehend 
vorstellen zu können. Das setzt voraus, die Kontinuierlichkeit der Welt in 
diskontinuierliche Einheiten zu zerschneiden und Ordnungen zu konstruie- 
ren (Siehe auch Lury et al. 2012). 

Die Datafizierung von Musik ist ein eindrückliches Beispiel, welches die- 
se datafizierenden Ordnungsleistungen verdeutlicht, wenn Musikstücke in 
immer kleinere Einheiten zerlegt werden. Für das Unternehmen The Echo 
Nest besteht ein durchschnittliches Musikstück aus ungefähr 2000 »events« 
(Prey, 2016, S. 33). Unter anderem identifiziert The Echo Nest für jedes Lied 
in seiner Datenbank »musically relevant elements that occur sequenced in 
time« (Jehan & DesRoches, 2014, S. 2). Die im Alltag intuitiv verständliche 


15 Das Beispiel des »livecoding« (Swift et al., 2014; McLean, 2017) aus der digitalen Kunst 
unterläuft diese Unterscheidung. 
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Einheit des Liedes wird aufgebrochen, um das Lied als Datenpunkte neu 
zu versammeln. Der Song Never Gonna Give You Up von Rick Astley hat zehn 
Sections, 397 Beats und 935 Segmente. Für jedes Segment wird Klangfarbe, 
Tonhöhe und Lautstärke ausgewiesen. The Echo Nest versteht Musikstücke 
als Daten: Jeder Song besteht aus einer bestimmten Anzahl und Arten von 
Events mit bestimmten Eigenschaften. Die Gesamtheit von Klängen, die ein 
Lied ausmachen, wird dabei in eine neue Ordnung gebracht. Daran anschlie- 
ßend lassen sich »musikalisch ähnliche« Lieder identifizieren und Nutze- 
rinnen empfehlen. Lieder in der Datenbank lassen sich auch auf der Basis 
abgeleiteter Eigenschaften wie dem »danceability score« vergleichen - »the 
higher the value, the easier it is to dance to this song« (Lamere, [o.D.]b). Die 
Aufsplittung der Stücke ermöglicht aber auch Manipulationen wie z.B. eine 
automatisierte Neuanordnung der Elemente: »Ihe Eternal Jukebox« macht 
aus endlichen Musikstücken nicht endende, indem ähnliche Segmente des 
Songs identifiziert und neu zusammengesetzt werden (Lamere, [o.D.]a). An 
den Übergängen zwischen den Segmenten »springt« der Song zu ursprüng- 
lich nicht vorgesehenen, aber ähnlichen, Stellen. '® 

Eine weit verbreitete Methode, um Texte — seien es Blogbeiträge, Sta- 
tusmeldungen oder ganze Bücher - zu datafizieren, ist die Vektorisierung 
(Mackenzie, 2017; Rieder, 2020). Das Verfahren der Vektorisierung wurde 
im computerwissenschaftlichen Forschungsfeld des »information retrieval« 
entwickelt und maßgeblich von Gerard Salton et al. (1975) geprägt (Rieder, 
2020, K. 5). Rieder beschreibt Vektorisierung als Methode, wie Texte in eine 
»intermediary form« gebracht werden können, um die statistische Verar- 
beitung zu ermöglichen. Vektorisierung bildet die Basis für viele Techniken 


16 Das Beispiel der Musik weist auch auf den Unterschied zwischen Digitalisierung und 
Datafizierung hin. Spätestens seit dem Aufkommen der CD ist Musik digital. Von data- 
fizierter Musik zu sprechen, wäre an diesem Punkt aber nicht angebracht. Musik als da- 
tenförmig zu verstehen und ihr bloßes Vorliegen in einem digitalen Format sind zwei 
unterschiedliche Dinge. Die Imagination von Dingen als Daten geht einher mit dem 
Wunsch bzw. der Notwendigkeit von Datenanalyse und Datenmanipulation. Dem- 
entsprechend wäre genauer zu untersuchen, ab wann von datafizierter Musik die Re- 
de sein kann und wo deren Ursprünge liegen — zum Beispiel in der musikindustriellen 
Praxis des Masterings von Aufnahmen und der Manipulation von Tiefen und Höhen 
(Milner, 2019) oder der Erfindung von Kompressionsverfahren zur effizienteren Über- 
mittlung von Telefongesprächen, wie Sterne (2012) in seiner Analyse des Audioforma- 
tes MP3 darlegt. 
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des »machine learning« und des »natural language processing« (Mackenzie, 
2017). 

Vektorisierung, wie sie im Beispiel von Earlybird beschrieben ist (siehe 
unten), löst die subjektiven Bedeutungen der Wettbewerbsantworten aufund 
gibt ihnen eine neue Bedeutung. Der Kontext des Wettbewerbs, der Wettbe- 
werbsfrage oder der subjektiven Wünsche und Hoffnungen weicht dem ma- 
thematischen Kontext des Vektorraums von Wikipedia. Die Bedeutung des 
Texts besteht so gesehen nicht in seiner subjektiven Interpretation durch die 
Urheberinnen oder jenen, die den Wettbewerb durchgeführt haben, sondern 
lässt sich nun mathematisch als Kombination von Vektoren ausdrücken. Die 
Bedeutung eines Worts liegt nicht mehr darin, was ich oder jemand ande- 
res darunter versteht, sondern welche anderen Wörter sich innerhalb des 
aufgespannten Vektorraums in der Nähe befinden. 


[Vectorizing data] produces a common space that juxtaposes and mixes 
complex localized realities. [...] In vector space, identities and differences 
change in nature. Similarity and belonging no longer rely on resemblance 
or a common genesis but on measures of proximity or distance. (Mackenzie, 
2017, S. 73) 


Im Folgenden beschreibe ich, wie Earlybird Digital Wettbewerbsantworten 
in Vektoren transformiert und so die Grundlage schafft, um Member auto- 
matisiert ihren Marketingkategorien zuordnen zu können. 


Rechnen mit Text 


Ich möchte am liebsten nach Jordanien und ganz früh am morgen mit 
dem Pferd durch die Wüste zur antiken Stadt Petra reiten, damit ich 
vor den Touristenbussen die Stadt im Sonnenaufgang bewundern kann. 
Auf den Cook Inseln schnorcheln mit Walhaien und einfach die Seele 
baumeln lassen. In den USA einmal die unglaubliche Atmosphäre am 
Burning Man Festival erleben. 


So (ähnlich) lautet eine der vielen Wettbewerbsantworten, die bei Earlybird 
eingegangen sind. Simon sieht Freitexte wie diesen als »missing link« mit 
dem sich ein Problem von Earlybird beheben lässt. Er formuliert das Problem 
anhand zweier Thesen. Erstens: Im »Earlybird Universum« existieren fünf 
Member-Typen: Hedonisten, progressive Postmoderne, Traditionelle, Young 
Performer und Freestyle Actionsportler (sowie eine Rest-Kategorie).'” Als Ma- 
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thematiker sei er bei solchen Dingen skeptisch. Er habe aber immer wieder 
mit Beni darüber gesprochen und musste irgendwann einmal sagen: »so ist 
wahrscheinlich die Welt«. Simon gehtalso davon aus, dass estatsächlich diese 
verschiedenen Jugendmilieus gibt und dass sie unter den Earlybird-Membern 
»ein Stück weit« vertreten sind. Zweitens geht er davon aus, dass das Marke- 
ting für die einzelnen Typen Kampagnen entwickeln und durchführen könne. 
Der»missinglink«zwischen den Typen und den Kampagnen sei, wie die Mem- 
ber den einzelnen Typen zugeordnet werden können, so dass sie das Marke- 
ting mitentsprechenden Kampagnen ansprechen kann. 

Er präsentiert eine »verrückte Idee«, wie sich dieses Problem mit künst- 
licher Intelligenz lösen lasse. Ein Mitarbeiter von ihm sei gerade dabei, die 
deutsche Wikipedia herunterzuladen. Damit wollen sie »ein multilayer neu- 
ronales Netz« trainieren, das »den Kontext von Wörtern« lernt. Jedes Wort in 
der Wikipedia wird dafür in einen Vektor’ transformiert, der im Prinzip so 
viele Dimensionen haben kann wie Wikipedia Artikel hat (also 2.5 Millionen 
Dimensionen), aber auf einige hundert reduziert wird. Jedes Wort auf Wiki- 
pedia wird dann abgebildet in diesem multidimensionen Vektorraum. 

Um Wikipedia als Vektorraum zu beschreiben, wird eine Tabelle erstellt, 
die alle einmaligen (und lemmatisierten) Wörter und alle Artikel von Wikipe- 
dia umfasst (siehe Grafik 5). In die Felder der Tabelle wird dann eingetragen, 
in welchen Artikeln jedes Wort jeweils vorkommt. '? 

Ein Beispiel: Nehmen wir an, Wikipedia verfüge nur über zwei Artikel: ei- 
nen Artikel über Soziologie und einen Artikel über Mathematik. Wir zählen 
nun, wie oft das Wort »Mensch« und das Wort »Rechnen« in beiden Artikeln 
vorkommt: »Mensch« erscheint 12 mal in Soziologie, 4 mal in Mathematik; 
»Rechnen« erscheint 1 mal in Soziologie, 5 mal in Mathematik. Diese Trans- 
formation erlaubt es, mit Wörtern und Texten zurechnen: Ähnlichkeiten und 
Differenzen verschiedener Wörter, lassen sich nun quantitativausdrücken, in- 
dem beispielsweise die Distanz oder der Winkel zwischen den Wörtern ge- 
messen wird. Auch ganze Texte lassen sich als »bag of words« im Vektorraum 
lokalisieren und mit anderen Wörtern oder Texten quantitativ in Beziehung 
setzen. 

Die Zahlen im Vektor seien »eine Art Codierung« darüber, in welchem 
Kontext zum Beispiel das Wort»Mensch« über alle Seiten der Wikipedia ver- 
wendet wird. Dies erhalten sie für jedes Wort, das auf Wikipedia verwendet 
wird. Das ist das Resultat des neuronalen Netzes: ein »word2vec«-Modell. Si- 
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mon kann nun fürjedes Wort in einer Wettbewerbsantwort den Vektor ausle- 
sen und addieren. Dieser Vektor entspreche dann dem »Kontext in Bezug auf 
Wikipedia, wo es gelernt wurde«. 

In einem nächsten Schritt werden die Beschreibungen der Lifestyle- 
Segmente ebenfalls in Vektoren transformiert, zum Beispiel zeichnetsich das 
Segment der»Hedonisten« durch»Unterhaltung«, »Musik«, »Tanzen«, »Club«, 
etc. aus. Jedes in der Beschreibung vorkommende Wort wird zu einem Vek- 
tor. Alle zusammen werden zu einem »Centroiden« addiert, der für das ent- 
sprechende Segment steht. Dasselbe macht Earlybird mit jedem Segment 
und jeder Wettbewerbsantwort. Daraus ergibt sich ein Vektor für » Hedonist« 
und einer für die Wettbewerbsantwort eines Members (siehe Grafik 6). Das 
ermögliche nun ein »algorithmisches Mapping zwischen Membern und den 
Marketing-Persona«. Das könne man dann dem Marketing übergeben, um 
Kampagnen damit zu machen. 


Encoding und Vektorisierung sind zwei Varianten, mit denen Nutzerinnen 


und ihre Verhaltensweisen vergleichbar gemacht werden. Die Soziologie der 


Quantifizierung verwendet den Begriff der »commensuration«, um zu be- 


nennen, wie qualitative in numerische Differenz verwandelt wird: 
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Bei einem Milieu wisse man nicht wohin damit: das sei der Abfalleimer. Dort gebe es 
im Text nichts Charakteristisches wie bei den anderen. Sie könnten damit nicht anfan- 
gen, weil es kein Wort gebe, das diese Gruppe beschreibe. »Keine Zuordnung möglich« 
bedeute, dass es in diese Kategorie komme. Wenn der Vektor des User-Inputs rela- 
tiv weit weg von allem anderen sei, dann gehöre es in diese Kategorie. Simon nimmt 
aber an, dass sie auch keine Kampagnen für solche Leute designen. Sabina meint, dass 
diejenigen so verschieden seien, dass einzelne Gruppen darin wieder spezifisch ange- 
sprochen werden müssten, z.B. »Straight-Edge«, eine Subkultur, die gar nichts konsu- 


mieren wolle. 


Ein Vektor ist ein mathematisches/geometrisches Konzept. Ein Vektor hat eine Länge 
und eine Richtung. In einem zweidimensionalen Koordinatensystem - typischerweise 
als gerader Pfeil abgebildet — beginnt ein Vektor beispielsweise am Nullpunkt (0, 0) 


und geht zum Punkt (2, 5) (Rieder, 2020, S. 217). 


Hier gibt es mehrere Möglichkeiten: Salton et al. (1975) zählen, wie oft ein Wort in 
den jeweiligen Dokumenten vorkommt. Simon und sein Team verwenden den TF-IDF 
Algorithmus — ein Mass dafür, wie relevant ein Wort in einem Text ist (Gabrilovich & 


Markovitch, 2007). 


Wikipedia - Artikel 
> Soziologie « 
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MENSCH 


RECHNEN 


Wikipedia -Artikel 
» Mathematik « 


Abb. 5: Beispiel von zwei Vektoren im zweidimensionalen Raum 


Commensuration creates a specific type of relationship among objects. It 
transforms all difference into quantity. In doing so it unites objects by en- 
compassing them under a shared cognitive system. At the same time, it also 
distinguishes objects by assigning to each one a precise amount of some- 
thing that is measurably different from, or equal to, all others. Difference 
or similarity is expressed as magnitude, as an interval on a metric, a precise 
matter of more or less. (Espeland & Stevens, 2008, S. 408) 


Beide Verfahren reinigen die unterschiedlichen Verhaltensweisen oder 


Äußerungen von ihren qualitativen Kontextbezügen und subjektiven Sinn- 


gehalten. Zahlen oder Daten weisen daher eine geringe »Indexikalität« auf 


(Heintz, 2010, S. 173). Heintz weist darauf hin, dass dieses »disembedding« 


die »Anschlussfähigkeit« in kulturell heterogenen Kontexten erleichtert.*° 


Die großangelegte ethnografisch-vergleichende Studie »Why We Post« 


20 


»Um festzustellen, dass Norwegen auf der HDI-Rangliste einen höheren Rang ein- 
nimmt als Mexiko und Mexiko einen höheren als Sierra Leone, muss man die Kon- 
struktion des Index kennen, braucht aber nicht zu wissen, wie die Verhältnisse in den 
Ländern im Einzelnen beschaffen sind. Insofern stellen numerische Darstellungen ei- 
ne enorme Abstraktions- und Selektionsleistung dar, die die Verständigung vor allem 
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macht darauf aufmerksam, dass die gleichen Kommunikationsinfrastruktu- 
ren (i.e Facebook, Twitter, Whatsapp etc.) in unterschiedlichen kulturellen 
Kontexten auf unterschiedlichste Weisen verwendet werden (Miller, 2016). 
Das durch »encoding« etablierte Datenmodell ist für diese Unterschiede 


aber blind - und braucht davon auch gar nichts zu wissen. 


Abb. 6: Simons Darstellung des Wikipedia-Vektorraums 


Das Encoding dessen, was Couldry & Mejias (2019a) »life itself« nen- 
nen, filtert ü berschüssige Bedeutungen, d ie m it H andlungen i m digitalen 
Alltag verbunden sind. Wie Christina Alaimo und Jannis Kallinikos (Alaimo 
& Kallinikos, 2019) für Social-Media-Plattformen zeigen, ist die Produkti- 
on von Daten »a delicate engineering accomplishment«, das die Handlun- 
gen der Nutzerinnen von bedeutungstragenden Kontexten, in welchen diese 
Handlungen durchgeführt werden, »befreit« und zu digitalen Inskriptionen 
macht: 


dann erleichtert, wenn kein gemeinsames kulturelles Hintergrundwissen vorausge- 
setzt werden kann« (Heintz, 2010, S. 173). 
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to dissociate the action users perform from the meaningful contexts in which 
these actions occur, and treat them as just digital inscriptions, data tokens 
possible to cross-reference or syndicate, aggregate and combine with other 
data tokens. (Alaimo & Kallinikos, 2019, S. 304) 


»[D]isregarding the »underlying« object« (Charitsis et al., 2018, S. 827) - i.e. 
die Nutzerin, ihre Wettbewerbsantworten - ist die Bedingung, um aus Da- 
ten Wert zu generieren. Sobald encodiert oder vektorisiert wird, geht es 
nicht mehr darum, wie »people are related in actual life processes«, sondern 
um ihre Relationen in abstrakten »data spaces« (Arvidsson, 2016, S. 9). Die- 
se Dekontextualisierung öffnet datafizierte Verhaltensweisen für die weitere 
Verarbeitung und potenzielle, bisher ungeahnte, Verwendungszwecke. Daten 
und Zahlen sind also nicht nur in kulturell diversen Kontexten anschlussfä- 
hig, sondern werden erst dadurch produktiv: Indem sie dekontextualisieren 
schaffen sie die Möglichkeit, Daten neuen Zwecken zukommen zu lassen 
und für weitere Verarbeitungsschritte zu öffnen. Verhaltensweisen werden 
zu »data tokens«, die rekombiniert, aggregiert und an Dritte weitergege- 
ben werden können (Alaimo & Kallinikos, 2019). Solche »Rohdaten« bilden 
die Grundlage für verschiedene weitere Operationen der Bewertung, der Ka- 
tegorisierung und des Vergleichs (bei Alaimo & Kallinikos 2017 unspezifisch 
»computation« genannt). Dabei werden Nutzerinnen oder Gruppen von Nut- 
zerinnen als »audiences« konstruiert und mit neuen, prädiktiven Relationen 
ausgestattet (Charitsis et al., 2018). 

Die Löschung des Kontexts, der die Entstehung der einzelnen Daten- 
punkte umgibt, ist also nicht als bedauernswerter Umstand oder Fehler zu 
verstehen (Seaver, 2015). Encoding und Vektorisierung sind Verfahren, die 
aus Personen und ihren Tätigkeiten Nutzerinnen und Objekte machen, die 
sich für weitere Operationen der Kategorisierung, der Bewertung und des 
Vergleichs anbieten: Es ist ein notwendiger Schritt im Prozess, aus »life its- 
elf« eine veräußerbare und verarbeitbare Ressource zu machen, die weiteren 
Transformationsschritten und Verarbeitungsprozessen offen steht. »[T]aking 
the gift out of the commodity« (Tsing, 2013, S. 21) heißt hier, den sozialen 
Kontext und die subjektive Bedeutung einer Handlung auszuklammern und 
nur ihren technischen Kontext in Betracht zu ziehen, so dass zwischen den 
verschiedenen datafizierten Verhaltensweisen und Nutzerinnen Vergleich- 
barkeit und neue Relationen hergestellt werden können. 

Die sozialen Kontexte und subjektiven Bedeutungen werden durch Enco- 
ding und Vektorisierung zwar ignoriert. Seltsamerweise erlaubt gerade diese 
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Nivellierung datafizierter Verhaltensweisen, dass in einem weiteren Moment 
der Datafizierung neue Relationen wuchern können. Wie kluge Data Scien- 
tists und leistungsfähige Algorithmen solche latenten, vermeintlich immer 
schon in den Daten steckenden Relationen hervorlocken beziehungsweise 
produzieren, ist Gegenstand der Kapitel 8 und 10. 
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Digitale Personendaten haben einen doppelten Verweisungshorizont. Ers- 
tens verweisen sie auf das, was sie als Spuren »präsentieren« (Krämer et al., 
2007): auf individuell und sozial bedeutsame Sinngehalte und Interaktio- 
nen. Durch Techniken des »encoding« und der Quantifizierung oder Vek- 
torisierung werden Verhaltensweisen von Nutzerinnen abgeflacht und von 
Sinnüberschüssen befreit. Welche Intentionen oder bedeutungsvollen Inter- 
aktionen mit anderen Nutzerinnen, Gruppen oder Dingen verbunden waren, 
spielt formal keine Rolle mehr - auch wenn das in der Beurteilung der Daten 
weiterhin relevant ist. Diese »formal indifference« macht singuläre Verhal- 
tensweisen zu vergleichbaren Verhaltensdaten, zu einer Ressource, mit der 
gerechnet werden kann. 

Zweitens verweisen Personendaten prospektiv auf etwas, was in den Da- 
ten steckt. Etwas, das nicht explizit mitgeteilt wurde, aber aus den Daten 
»abgeleitet« werden kann. Wie im Beispiel der »schönen Daten«, ist Early- 
bird nicht primär daran interessiert, wohin Teilnehmerinnen reisen und was 
sie dort tun möchten, sondern daran, was sich sonst noch mit den Daten 
machen lässt. 

Das Wertversprechen besteht im »impliziten« Gehalt der Wettbewerbs- 
antworten: den kategorialen Zugehörigkeiten, die sich in den Daten ausdrü- 
cken, und den Rückschlüssen auf zukünftige oder wahrscheinliche Verhal- 
tensweisen oder Präferenzen, die daraus gezogen werden können. 

Wie das Beispiel von Earlybird, aber auch zahlreiche andere Fälle klar ma- 
chen, besteht dieser »sekundäre« Zweck vor allem im »social sorting«, d.h. 
in der Ableitung von kategorialen Zugehörigkeiten wie Geschlecht (Cheney- 
Lippold, 2011; Buolamwini & Gebru, 2018), sexueller Orientierung (Wang & 
Kosinski, 2018) für Marketing wertvolle Hinweise auf Lebensereignisse wie 


1 Siehe Beauvisage & Mellet (2020) zu »repurposing« von Personendaten oder Mayer- 
Schönberger & Cukier (2013, S. 173) zur Zweitverwendung von Daten: »In the era of big 
data [...] much of data's value is in secondary uses that may have been unimagined 
when the data was collected«. 
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Umzüge oder Schwangerschaften (Ebeling, 2016), Konsumneigungen (Ma- 
ckenzie, 2018) oder Credit-Scores (Fourcade & Healy, 2017b). 


The surveillance system obtains personal and group data in order to classi- 
fy people and populations according to varying criteria, to determine who 
should be targeted for special treatment, suspicion, eligibility, inclusion, ac- 
cess, and so on. [...] It sieves and sorts for the purpose of assessment, of jud- 
gement. (Lyon 2003, S. 20, siehe auch Gandy 1993) 


Marktakteure verwenden algorithmische Systeme der Kategorisierung und 
der Bewertung (Fourcade & Healy, 2016), um ihre Kundschaft zu differenzie- 
ren (Zwick & Denegri Knott, 2009; Turow, 2003). Entgegen der Annahme von 
Okonomen ist der Markt nicht blind ftir sozialen Status: »markets see social 
differences very well and thrive on them. Like states, market technologies 
make societies more »legible«« (Fourcade & Healy, 2016, S. 562). Solche Kate- 
gorisierungen sind für Individuen folgenreich, da sie bestehende soziale Dif- 
ferenzierungen und Ungleichheiten aufgreifen und neue Differenzierungen 
erzeugen. Sie resultieren in »classification situations«, die Lebenschancen 
beeinflussen. Anstrengungen mit dem Ziel »to know your customer« - in der 
Sprache des Marketings — führen auf der Seite der getrackten, profilierten, 
kategorisierten und gescorten Individuen zu einer neuen Form von Kapital: 
»übercapital«, »a form of capital arising from one’s position and trajectory 
according to various scoring, grading and ranking methods« (Fourcade & 
Healy, 2017b, S. 14). 

Insbesondere Credit-Scores sind (zumindest im US-amerikanischen 
Kontext) ein zentraler Generator von »classification situations«, d.h. der 
Position im Kredit-Markt und der Art möglicher Kredite. Auch darüber 
hinaus kommen Credit-Scores in nicht kreditbezogenen Kontexten wie 
beispielsweise bei Job-Bewerbungen zur Anwendung (siehe Rona-Tas 2017 
zu »off-label use« von Credit-Scores). 

Auf Vatin (2013) referierend deuten Fourcade & Healy (2016) an, dass die 
Bewertung (»valuation«) von Individuen von der Verwertung (»valorization« 
bei Vatin, »value-extraction« bei Fourcade und Healy) teilweise entkoppelt 
sein kann. Ihr Beispiel der Credit-Scores verdeutlicht dies: Geringes Über- 
kapital im Sinne eines niedrigen Scores ist nicht automatisch mit einem 
geringen Marktwert verbunden. 


Someone with very low übercapital may actually be very valuable from the 
point of view of their classification in the market. For instance, companies 
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may pay dearlyto acquire lists of people with gambling problems, or chronic 
diseases requiring medication. (Fourcade & Healy, 2016, S. 14) 


Es ist dementsprechend nicht alleine die Hohe des Scores oder die Menge 
an Uberkapital, die fiir die In-Wert-Setzung eines individuellen Datenpro- 
fils ausschlaggebend ist. Es interessieren nicht nur die Spitzenplatze in den 
Scorings. Nicht nur die bestplatzierten, sondern auch Personen mit einem 
»subprime« Credit-Score erhalten Kredite - nur eben zu schlechteren Kon- 
ditionen. Es gibt ein »Kreditprodukt« für jeden »Kredittyp«. 

Die Nutzung digitaler (und zum Teil analoger) Güter und Dienstleistun- 
gen generiert Daten, welche die Nutzerinnen hinter ihrem Rücken als kre- 
ditwürdig, »subprime« oder irgendwo dazwischen »markieren« (Fourcade & 
Healy, 2016, S. 17). Unternehmen nutzen diese Daten, um »good matches« 
zwischen Konsumentinnen und Produkten herzustellen - zum Beispiel zwi- 
schen einer wohlhabenden Kundin und einer Kreditkarte mit hoher Limite. 
Im Kern geht es darum, potenzielle Kundinnen mit denjenigen Angeboten 
zu adressieren, welche die höchste Annahme- und Profitwahrscheinlichkeit 
haben. 

Fourcade und Healy schlagen vor, Viviana Zelizers (1994; 2011) Konzept 
der »good matches« auf digitale Daten anzuwenden. Wie Zelizer darlegt, 
markieren Formen des Zahlens Beziehungen zwischen Geberinnen und 
Empfängerinnen. Mit »good matches« bezeichnet sie die Übereinstimmung 
von Geld- und Bezahlformen mit Kategorien von Personen oder Beziehun- 
gen. Fourcade erläutert dies anschaulich am Beispiel von Studentinnen: 


College students worry tremendously about making mistakes when offering 
in-kind or in-cash gifts to their less privileged classmates, for instance. Is 
their generosity over-the-top and patronizing? Is the medium appropriate? 
And if they are on the receiving end, should they accept it and how? Will the 
gift put them in debt, and undermine the presumed equality in the relati- 
onship? The students seem to be aware, in a confused sort of way, that the 
delicate equilibrium that their cross-class friendships have achieved may be 
at stake in such exchanges. At stake, too, are their feelings about themselves, 
their social persona, their place in the broader Princeton society. (Fourcade, 
2016a) 


Die richtige Art von Transfer (z.B. Geschenke), kombiniert mit der richtigen 
Form (z.B. Cash), muss mit der spezifischen Art der Beziehung in Abstim- 
mung gebracht werden. Für Studentinnen stehen dabei die Beziehungen 
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zu den anderen Studentinnen auf dem Spiel. Auch für die von Tsing be- 
schriebenen Matsutake-Händler stellt sich ein ähnliches Problem, wenn sie 
ihre Pilze mit ganz bestimmten Abnehmerinnen im Kopf sortieren, um die 
richtige Käuferin mit den richtigen Pilzen zusammenzubringen und so die 
Beziehung zu erhalten. »Good matches« »[get] the economic work of the 
relationship done and [sustain] the relationship« (Zelizer, 2006, S. 307). 

Karen Levy liefert ein weiteres Beispiel, indem sie das Konzept auf Track- 
ingdaten anwendet: »people constitute and enact their relations with one 
another through the use and exchange of data« (Levy, 2013, S. 75). Das ver- 
deutlicht sie am Beipiel einer Smartphone-App, die es Nutzerinnen erlaubt, 
den Standort von Freunden in Echtzeit zu verfolgen. Die Beziehung von zwei 
Personen wird definiert darüber, ob sie sich von ihrem abwesenden Gegen- 
über tracken lassen. Damit differenzieren die Überwacherinnen zwischen 
jenen Freundinnen, die sie überwachen, und jenen, die sie nicht tracken 
beziehungsweise dies nicht zulassen. 

Levy belässt es bei der Untersuchung, wie über Daten persönliche Be- 
ziehungen zwischen Individuen definiert und aufrechterhalten werden. Wie 
Fourcade & Healy (2016) anregen, lassen sich aber auch kommerzielle Be- 
ziehungen hinsichtlich der Frage untersuchen, wie Unternehmen über Prak- 
tiken des Trackings und der Datenverarbeitung ökonomische Beziehungen 
erzeugen und erhalten. In diesem Sinne sind (ökonomische) Transaktionen 
nicht nur das Resultat bestehender Beziehungen, sondern »the exchange its- 
elf produces varied forms of ties, in the sense of »connections< between va- 
rious entities« (Cochoy et al., 2017, S. 23), »between persons, between things, 
and between persons and things« (Cochoy et al., 2017, S. 27). Für Unterneh- 
men der digitalen Okonomie stehen analog zu den Studentinnen oder den 
Matsutake-Handlerinnen die guten Beziehungen zu ihren Nutzerinnen (und 
ihren Werbekundinnen) auf dem Spiel. 

Im Kern von »good matches« der digitalen Ökonomie steht die Herstel- 
lung eines Passungsverhältnisses zwischen Nutzerin und Dingen, das »en- 
gagement« aufrecht erhält (Seaver, 2018) und weiteren Konsum motiviert. 
Den richtigen Film, das richtige Produkt, den richtigen News-Artikel, den 
richtigen Post, die richtige Werbung, den richtigen Song als Nächstes zu 
präsentieren, soll die Nutzerin zum Klick (oder zum Kauf) veranlassen, sie 
länger auf der Seite halten und so die Beziehung zur Plattform (i.e. Netflix, 
Instagram, Spotify, etc.) festigen. 

Die Herstellung von »good matches« lässt sich dann als eine organisato- 
rische Praxis verstehen, in der Personendaten für die Unternehmen der di- 
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gitalen Ökonomie in Wert gesetzt werden (Kallinikos & Alaimo, 2019). Über 
Personendaten lassen sich Nutzerinnen und Dinge sowie Nutzerinnen und 
Dinge je untereinander in Beziehung setzen und daraus neue Relationen ab- 
leiten. »Good matches« sind die Grundlage eines (reziproken) Beziehungsge- 
flechts zwischen Unternehmen, Nutzerinnen, Dingen und je nach dem auch 
Werbekundinnen und Entwicklerinnen (Fourcade & Kluttz, 2020). 


8.1 Relationen ableiten 


Im ersten Moment der Datafizierung werden Nutzerinnen und Unterneh- 
men miteinander verwickelt, um Personendaten zu erzeugen. Im zweiten 
Moment werden Relationen und Bedeutungen entfernt oder operativ igno- 
riert, damit die Verhaltensweisen zu Daten werden, mit denen sich rech- 
nen lässt. Im dritten Moment wird gerechnet, um aus den Personenda- 
ten neue Relationen beziehungsweise »good matches« zwischen Nutzerin- 
nen und Dingen abzuleiten. Im Idealfall - d. h. in funktionierenden Daten- 
und Empfehlungsinfrastrukturen - geschehen alle drei Momente mehr oder 
weniger gleichzeitig, so dass ein Klick zum nächsten führt. Die Relation 
zwischen Nutzerin und Unternehmen wird aufgefrischt, neue Daten den 
Profilen hinzugefügt und daraus werden neue Relationen abgeleitet, die zu 
weiteren Klicks motivieren. 

Das ist der Idealfall. Aber wie wird die Lücke zwischen Nutzerin und 
dem nächsten »Ding« überbrückt? Wie werden »good matches« hergestellt? 

Die kurze Antwort: Es sind Algorithmen, welche die Lücke zwischen Nut- 
zerin und Dingen durch »inferring across the gaps« schließen (Amoore, 2011, 
S. 27). Die »Magie« der Algorithmen (Ziewitz, 2016) ermöglicht »inductive le- 
aps« (Gregg, 2015), um aus Personendaten weitere Daten abzuleiten (Amoore, 
2011), die über Passungsverhältnisse von Nutzerinnen und Dingen Auskunft 
geben. 

Um dieses dritte Moment der Datafizierung im Detail zu verstehen, 
wechseln wir von einer »ontologischen« Perspektive auf Personendaten zu 
einer »epistemologischen« (Mai, 2016). Unser Fokus verschiebt sich vom ers- 
ten Verweisungshorizont darüber, was Daten repräsentieren, auf den zwei- 
ten: was aus Daten abgeleitet werden kann. 


Data collection is ontologically oriented; it focuses on data as representing 
facts about states of affairs in the world: people and activities and the inter- 
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relation between places, times, other people, activities, and intentions. Data 
processing and analysis is epistemologically oriented; it focuses on the facts 
or realities that data can generate as they are processed and analyzed. (Mai, 
2016, S. 198) 


Mai illustriert die Differenz anhand eines Problems in der Debatte um Pri- 
vatsphare: Er argumentiert, dass Privatsphare nicht nur durch die Samm- 
lung digitaler Personendaten verletzt werde, sondern vor allem durch deren 
Verarbeitung. Er erläutert die Differenz am berühmten Beispiel von Targets 
»pregnancy prediction score« (Duhigg, 2012). Dieser veranlasste Target, einer 
jungen Frau Werbung für Schwangerschaftsprodukte zu senden und machte 
dabei ihren Vater auf die Schwangerschaft aufmerksam.” 


The woman's privacy was not violated due to the collection of data (she had 
presumably volunteered the information), but it could be argued that her 
privacy was violated due to data processing and analysis. (Mai, 2016, S. 198) 


Mai schlagt ein »datafication model of informational privacy« vor, das den 
Fokus von der Sammlung auf die Verarbeitung von Daten verschiebt: Dies 
erlaubt es zu erkennen, dass nicht die, möglicherweise mit Einverständnis 
gegebenen, Daten das Problem sind, sondern neue Informationen und Re- 
lationen, die daraus »abgeleitet« werden können. 

Das singuläre Datum, »junge Frau kauft unparfümierte Lotion«, wird in 
diesem Sinne erst bedeutungsvoll, wenn sich dieses an sich bedeutungslose 
Datum zu anderen Daten in Beziehung setzen lässt. Dass sie zum Beispiel 
Vitaminzusätze und extragroße Wattebäusche gekauft hat und dass diese 
Produkte von Frauen gekauft wurden, die sich in Targets »Baby Shower«- 
Programm eingeschrieben hatten (Duhigg, 2012). 


The individual datum produced from a single user ata given time and place 
(e.g. posting a picture of a meal to Instagram) is both nearly meaningless [...] 
and valueless [...] until it is linked to the user’s past data produced, the user’s 
network of other users, the user’s growing network of location data, and the 
temporal rhythms and spatial patterns embedded in data from many users. 
(Thatcher et al., 2016, S. 995) 


2 Ein oft verwendetes Beispiel, das wie kein anderes zugleich für die »power of the algo- 
rithm« (Beer, 2017) steht (zum Beispiel im Buch »Data Science for Business« von Pro- 
vost & Fawcett 2013) und für die Gefahr der Überwachung und des Data Mining (siehe 
zum Beispiel: Marwick 2014). 
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Der Versuch, Personendaten zu individuellen »assets« der Nutzerinnen zu 
machen (siehe prominent: Lanier 2014), scheitert daran, dass Personenda- 
ten nicht schon an sich als Güter betrachtet werden können (Beauvisage & 
Mellet, 2020, S. 84). Personendaten entfalten ihren Wert erst — beziehungs- 
weise werden erst zur »digital commodity« -, wenn sie mit anderen Daten 
in Verbindung gesetzt werden (siehe auch: Charitsis et al. 2018). 

Ich zeige zwei unterschiedliche Arten, wie Daten miteinander verlinkt 
werden, um neue Informationen und prospektive Relationen daraus abzu- 
leiten. Die erste Form der Verlinkung nennen Lee et al. (2019) »folding«: 
Dabei werden Datensätze, Klassifikationen und Normalitäten unterschied- 
lichen Ursprungs miteinander verbunden, um neue Ordnungsweisen und 
Perspektiven auf die Welt hervorzubringen. Die zweite Form, die ich im 
Anschluss an Bettina Heintz’ (2010; 2016) Vergleichssoziologie »Relationie- 
rung« nenne, bezeichnet die unzähligen algorithmischen Operationen des 
Vergleichs, in denen Nutzerinnen und/oder Dinge paarweise zueinander in 
Relation gesetzt werden, um für spezifische Nutzerinnen passende Dinge zu 
eruieren. 


8.2 Faltungen 


Eine wachsende sozialwissenschaftliche Literatur befasst sich mit den Fol- 
gen weitgehender Profilierungs- und Kategorisierungsmaßnahmen privat- 
wirtschaftlicher und öffentlicher Akteure. Sie kritisiert Verzerrungen in Da- 
ten und Algorithmen, die zu ungerechten Resultaten führen — entgegen den 
Versprechungen, dass Algorithmen vermeintlich neutraler und weniger vor- 
urteilsbehaftet entscheiden könnten. Wie sich zeigt, reproduzieren Algorith- 
men tendenziell soziale Ungleichheiten. Lee et al. (2019) weisen auf eine 
implizite Annahme solcher Ansätze hin: Wenn Algorithmen bloß »richtig« 
funktionieren würden, würden sie auch objektive und faire Resultate pro- 
duzieren. Diese »objektivistische« Perspektive auf Algorithmen ist sowohl 
kritisch als auch affirmativ. Anstatt zu fragen, inwiefern Algorithmen oder 


3 Beauvisage & Mellet (2020, S. 91) weisen auch daraufhin, dass nicht Personendaten ge- 
handelt werden —»it appears that personal data are not marketized as >the product«in 
this market, although they came to constitute a key element in its architecture«-, son- 
dern Tools und Dienstleistungen, mit denen sich Personendaten nutzen lassen. Dazu 
spater mehr. 
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Daten fehlerhaft sind - und damit indirekt: wie sie sich verbessern oder 
korrigieren lassen, um »korrekte« Resultate zu produzieren - schlagen Lee 
et al. (2019) eine alternative analytische Perspektive auf Algorithmen vor. Sie 
betrachten Algorithmen als Teil von soziotechnischen Systemen, die durch 
»operations of folding« neue Ordnungen und Relationen generieren: 


an analytical approach focusing on folding — on relating things that were 
previously unconnected — is better able to account for the varied processes 
by which algorithms order society and nature. (Lee et al., 2019, S. 2) 


Lee et al. (2019) beschreiben drei Möglichkeiten, wie Algorithmen als sozio- 
technische Systeme verschiedene Einheiten in eine Relation bringen können, 
zwischen denen zuvor keine Relation bestanden hatte. Die Operation der 
»Proximierung« demonstrieren sie an einem Re-Mapping der Aids-Epidemie 
von sozialen Kategorien wie »homosexuell« oder »Heroin-süchtig« in räumli- 
che Distanzen der Ausbreitung: »a set of social proximities was replaced with 
a set of spatial proximities« (Lee et al., 2019, S. 4). »Universalisierung« macht 
aus einem Flickenteppich an heterogenen, unter spezifischen Umständen er- 
zeugten, Datensätzen eine universelle Tatsache. Als Beispiel verwenden sie 
eine Karte der Zika-Verbreitung, welche die Schwierigkeiten und Unsicher- 
heiten der Datenerhebung unsichtbar machen. »Normalisierung« beschreibt, 
wie spezifische Normalitätsannahmen in Algorithmen »eingefaltet« werden. 
Algorithmen zur Vorhersage von Finanzmarktentwicklungen, die auf einer 
Glockenkurve basieren, gehen von anderen Normalitätsannahmen aus als 
solche, die sich auf die Power-Law-Verteilung stützen. Im ersten Fall wird 
angenommen, dass kleine Bewegungen normal und Krisen selten sind. Die 
Power-Law-Verteilung geht hingegen davon aus, dass große Veränderungen 
(i.e. Krisen) weitaus öfter vorkommen als die Glockenkurve suggeriert (Lee 
et al., 2019, S. 7). Ihr Fazit: Algorithmen bilden nicht eine soziale Realität 
einfach ab. Sie schaffen durch Faltungen neue Ordnungen, in denen sie Re- 
lationen zwischen verschiedenen Einheiten, Zeiten und Räumen bilden. 


Rather than thinking about objects, relations and concepts as stable enti- 
ties with fixed distances and properties, we might attend to how different 
topologies produce different nearnesses and rifts. In this way, technologies, 
such as algorithms, can be understood as folding time and space as much 
as social, political and economic relations [...]. By analysing algorithms in 
this manner, we argue that we can gain a better understanding of how they 
become part of ordering the world: sometimes superimposing things that 
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might seem distant and sometimes tearing apart things that might seem 
close. (Lee etal., 2019, S. 3). 


»Folding« scheint mir eine geeignete Metapher zu sein, um zu beschreiben, 
wie und auf welcher Grundlage Algorithmen operieren. Wie Roberge und 
Melangon betonen, haben Algorithmen eine »double agency«: »they construct 
meanings as much as they are shaped by meanings« (2017, S. 308). Der Begriff 
des Faltens bezieht sich darauf, welche bestehenden Kategorien, Deutungs- 
weisen und Selbstverständlichkeiten in algorithmische Systeme »eingefaltet« 
werden. Was Fourcade und Healy für das Verhältnis von Quantifizierung und 
Kategorisierung feststellen, lässt sich auf algorithmische Systeme ausweiten: 


Quantification not only implies classification, it implies classifications on top 
of other classifications — indeed a classificatory architecture that pulls in va- 
riegated ways of boxing and measuring people and things to some end. The 
pristine numerical output of a final score may bear a tangled relationship to 
its underlying strata of classes, groups, and types. (Fourcade & Healy, 20172, 
S. 289) 


Die Idee der Faltung betont, dass bei jeder weiteren Faltung bestimmte Ka- 
tegorien unsichtbar werden, ohne ganzlich zu verschwinden: Sie werden 
selbstverständlich und können möglicherweise auch wieder mobilisiert wer- 
den. 

Das folgende Beispiel von Earlybirds Kategorisierungsexperiment zeigt, 
wie so unterschiedliche Dinge wie Wettbewerbsantworten, die deutschspra- 
chige Wikipedia, Marketingsegmente, der TF-IDF-»Algorithmus« und Ex- 
pertenurteile ineinander gefaltet werden, um Nutzerinnen »algorithmisch 
Kategorien zuordnen« zu können. Aus extrem schwierigen qualitativen Ur- 
teilen darüber, welche Nutzerinnen zu welchen Kategorien gehören, werden 
berechenbare Distanzen, die darüber Auskunft geben, wie nahe sich Teilneh- 
merinnen und Kategorien im abstrakten, semantischen Raum von Wikipedia 
sind. Das Experiment zeigt auch, dass menschliche (Experten-)Urteile nicht 
überflüssig werden, sondern mit eingefaltet werden müssen. Am Ende steht 
Earlybird vor sauber kategorisierten Teilnehmerinnen, denen nichts mehr 
von Wikipedia, Experten oder Wettbewerben anzusehen ist. 
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Falten und Vergleichen 

Erste Faltung: Wikipedia 

Wir haben bereits gesehen, dass Earlybirds Wettbewerbsteilnehmer erst 
dann vergleichbar werden, wenn die Wettbewerbsantworten in einem ge- 
meinsamen Kontext positioniert werden können: Das ist der von Wikipedia 
aufgespannte Vektorraum. Der Kontext des Reisewettbewerbs in all seinen 
Facetten (Formulierung der Frage, Darstellung der Benutzeroberfläche, Re- 
krutierung der Teilnehmerinnen, Preise, Hoffnungen der Teilnehmerinnen, 
etc.) wird für die weiteren Verarbeitungsschritte unsichtbar gemacht und 
durch den »Kontext Wikipedia« ersetzt. Der Begriff des algorithmischen Fal- 
tens macht uns darauf aufmerksam, dass die mathematische Transformati- 
on von Text keine einfache De-Indexikalisierung oder Reinigung von Kontext 
ist: Esresultiert kein objektiver Blick von Nirgendwo (Haraway, 1988). Wie Mi- 
chael Lynch (1992) in einer Auseinandersetzung mit dem ethnomethodologi- 
schen Begriff der Indexikalitat beobachtet, lässt sich Indexikalitat nicht»repa- 
rieren«. Missverstandnisse und Unklarheiten lassen sich nur durch einen Be- 
zug auf weitere indexikalische Äußerungen »reparieren«. Die Formalisierung 
indexikalischer Äußerungen, deren Bedeutungen immer auch im Ungesag- 
ten, Unsagbaren und schon Vorausgesetzten besteht, löst das Problem der In- 
dexikalität, indem die Äußerung in einen neuen, formalisierten Kontext (hier: 
Wikipedia) gestellt wird.* 

Wie Urs, Simons Assistent an der Hochschule, ausführt, verwenden sie da- 
zu die Methode der »explicit semantic analysis« (ESA) von Evgeniy Gabrilo- 
vich und Shaul Markovitch (2007). In ihrem Paper»Computing Semantic Rela- 
tedness using Wikipedia-based Explicit Semantic Analysis« schlagen die bei- 
den Autoren ESA als eine neue Methode vor, um maschinelles Textverständnis 
dem menschlichen näher zu bringen: 


[H]umans interpret the specific wording of a document in the much lar- 
ger context of their background knowledge and experience. [...] in order 
to process natural language, computers require access to vast amounts 
of common-sense and domain-specific world knowledge. (Gabrilovich 
& Markovitch, 2007, S. 1606) 


Was ein Mensch versteht, wenn er oder sie das Wort »Wald« hört, ist von in- 
dividuellen und kollektiven Wissensbeständen und Erfahrungen abhängig. 
Das soll im Fall von ESA durch Wikipedia simuliert werden. Die Methode ba- 


8 Drittes Moment 


siert auf einer Indexierung von Wikipedia, d.h. es wird eine Tabelle erstellt, 
die in den Zeilen alle vorkommenden Wörter und in den Spalten alle Arti- 
kel @concepts«) enthalten. In den Schnittpunkten von Wörtern und Artikeln 
werden Gewichtungen eingetragen, die darüber Auskunft geben, ob ein Wort 
vorkommt und wie relevant es im betreffenden Artikel ist. Wörter, die im be- 
treffenden Artikel oft vorkommen, im Gesamtkorpus aber eher selten sind, er- 
halten ein höheres Gewicht (TF-IDF):»These weights quantify the strength of 
association between words and concepts« (Gabrilovich & Markovitch, 2007, 
S. 1607).° Wie bereits in Kapitel 7 beschrieben, wird durch diese Tabelle ein 
Vektorraum mit potenziell so vielen Dimensionen, wie Wikipedia Artikel hat, 
aufgespannt. Für die deutschsprachige Wikipedia sind das 2.5 Millionen. Die 
Bedeutungeines interessierenden Worts lässt sich bestimmen, indem dieses 
Wort in der Tabelle nachgeschlagen wird: Wo im Vektorraum befindet sich 
dieses Wort und welche anderen Wörter sind am nächsten? Relationen der 
Ähnlichkeit und Differenz beziehungsweise Nähe und Distanz bestimmen 
seine Bedeutung (siehe die Grafiken 5 und 6 im vorhergehenden Kapitel). 
Als größte und mittlerweile auch anerkannte Enzyklopädie betrachten 
die Autoren Wikipedia als geeignetes Korpus, um die maschinelle Repräsen- 
tation von Textdaten zu verbessern. Wikipedia-Artikel eignen sich insbeson- 
dere deshalb, weil es sich dabei um »natural concepts«, »defined by humans 
themselves« (Gabrilovich & Markovitch, 2007, S. 1606) handle und sich je- 
der Artikel mit nur einem spezifischen Thema im Detail befasse. Eine zen- 
trale Rolle spielt dabei die Idee der »semantic relatedness«, die den opa- 
ken Prozess der menschlichen Interpretation approximieren soll. »[B]ack- 
ground knowledge and experience«, das in den Köpfen der Interpreten steckt, 
wird über Wikipedia-»concepts« operationalisiert. Wikipedia, wie auch an- 
dere Enzyklopädien, scheinen die Funktion als neutrales universelles Kor- 
pus einzunehmen, in dem das Wissen und die Erfahrungen aller gleicherma- 
ßen stecken.’ Doch Simon und sein Team ziehen in Erwägung, dass Wikipe- 
dia möglicherweise nicht der richtige »Kontext« für die Kategorisierung der 
Earlybird-Member darstelle. Sie stellen in Aussicht, das Archiv aller»20 Minu- 
ten«-Artikel zu verwenden, falls sie Zugang dazu erhalten.® »20 Minuten« sei 
näher an der Jugendsprache als Wikipedia und sei für den Schweizer Kontext 
angemessener, da darin auch spezifische Schweizer Begriffe wie »Velo« und 
»Glacé« abgebildet seien. »Semantic relatedness« ist davon abhängig, wel- 
cher»Kontext« in den Kategorisierungsalgorithmus »eingefaltet« wird. 
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Zweite Faltung: Marketingsegmente 

Wie Gabrilovich und Markovitch zeigen, lässt sich die Ähnlichkeit beliebiger 
Wörter oder auch ganzer Texte im Kontext von Wikipedia eruieren. Earlybird 
istabernichtan irgendwelchen Wörtern interessiert. Ihnen geht es darum, die 
Freitextantworten der Teilnehmerinnen mit Beschreibungen von Marketing- 
segmenten in Beziehung zu setzen, um daraus automatisch kategorialeZuge- 
hörigkeiten der Member abzuleiten. Simon lässt die Milieubeschreibungen, 
die er von Earlybird erhalten hat, von einer Kollegin an der Fachhochschule 
mit weiteren beschreibenden Begriffen »anreichern«. 

Die Definitionen der Marketingsegmente unterliegt im Verlauf des Ka- 
tegorisierungsexperiments einem starken Wandel, wie ich erfahre. Die auf 
20 Schlagwörter angereicherten Beschreibungen werden weiter optimiert, so 
dass die Milieus zu einem späteren Zeitpunkt nur noch durch drei bis sieben 
Schlagwörter charakterisiert sind. Gemäß Simon und Urs hätten sie mit die- 
sen kürzeren, dafür aber »präziseren« Schlagwortlisten die besten Resultate 
erzielt. 

Die automatisierte beziehungsweise »algorithmische Lösung«-das heis- 
se: ein »Computerprogramm« zu schreiben, das »Hypothesen« aufstellen 
kann, welche Member zu welchen Zielgruppen gehören - für das Zuord- 
nungsproblem ist eine spezifische Variante des Vergleichs: Erst werden die 
unterschiedlichen Einheiten paarweise zueinander in Beziehung gesetzt, um 
dann diese Beziehungen zu vergleichen (siehe genauer in den Kapiteln 8.3 
und 10). 

Dazu werden sowohl die Milieubeschreibungen als auch die Freitextant- 
worten in den Vektorraum übertragen. Aus den Vektoren der einzelnen Wör- 
ter eines Milieus wird der »Centroid« berechnet, d.h. das geometrische Zen- 
trum aller Wörter eines Milieus. Das Gleiche wird für die Freitextantworten 
gemacht. In Pseudo-Code ausgedrückt lautet die Vorgehensweise wie folgt: 


1. Generiere die ESA-Datentabellen aus Wikipedia (Wörter in den Zeilen, 
Wikipedia-Artikel in den Spalten, TF-IDF-Werte in den Feldern). 
2. Bestimme die Wörter der Marketingsegmente; bestimme ihre Lage im 
Vektorraum; berechne den Centroiden fürjedes Segment. 
3. Fürjede Freitextantwort: 
(a) Bestimme die Lage aller Wörter im Vektorraum; berechne den Cen- 
troiden. 
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(b) Berechne die Distanz zu jedem Segment. 

(c) Ordne die Segmente aufsteigend nach dem Kriterium »Distanz zur 
Antwort« und retourniere jenes Segment mit der niedrigsten Di- 
stanz. 


Segmente und Antworten werden vergleichbar gemacht, indem sie in einem 
gemeinsamen Vektorraum positioniertwerden. Differenzen und Ähnlichkei- 
ten lassen sich quantitativ als Distanzen ausdrücken. Wie wird nun vergli- 
chen? Die Spezifik des algorithmischen Vergleichs besteht darin, dass Seg- 
mente und Antworten paarweise relationiert werden. Das heißt, die Relatio- 
nen aller Antwort-Segment-Kombinationen werden verglichen, ausgedrückt 
als Maß ihrer »semantic relatedness« (Gabrilovich & Markovitch, 2007). Es 
interessiert nicht, welche Antwort den höchsten Hedonisten-Score aufweist. 
Entscheidend ist, fürwelches Segmenteine spezifische Antwort den höchsten 
Score erhält. 

Die Zuordnung von Segmenten operiert als Vergleich: Der Vergleich von 
paarweisen Antwort-Segment-Relationen produziert kategoriale Relationen 
im Sinn von»nominaljudgements« (Fourcade, 2016b). In der Herstellung han- 
delt es sich nicht um absolute, sondern unscharfe, kontinuierliche Zuordnun- 
gen: Jede Antwort erhält fürjedes Segment einen Score, der darüber Auskunft 
gibt, wie gut das Milieu passt.? Aus diesen kontinuierlichen Scores werden no- 
minale Kategorien: »Continuous measures are cut into ranked scales, which 
in turn come to life as classes or categories of person, organization, or group« 
(Fourcade & Healy, 2017a, 5.287). Wer für das Segment»Hedonist« den höchs- 
ten Score aufweist, wird in den anschließenden Marketingkampagnen als He- 
donist behandelt.’° 


Dritte Faltung: Der Goldstandard, oder: handische Kategorisierung 

durch Expertinnen 

Die Frage sei nun: »Wie messen wir, ob das funktioniert?« Woher weiss Ear- 
lybird, ob es sich nicht einfach um einen »mehrbesseren Zufallsgenerator« 
handle? Für Simon und sein Team sei klar, dass sie das nicht selber entschei- 
den könnten: Sie müssten die Vorgehensweise mitjener einer Person verglei- 
chen, die beurteilen kann, was zusammengehört: »das unterstellen wir euch«. 
Mit »euch« meint er mich, Sabina und Anna. Sabina ist die Marketingleite- 
rin, Anna ist die Mitarbeiterin eines befreundeten Jugendmarketingbüros, wo 
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sie»contentcreation«und»storytelling« macht. Sie war bei der Durchführung 
des Wettbewerbes für das Reisebüro ebenfalls involviert. Wir wurden einbe- 
rufen, um einen »Goldstandard« zu erarbeiten, der als »benchmark« für den 
Algorithmus dienen kann, d.h. es soll dann verglichen werden können, wie gut 
der Algorithmus darin ist, Milieus mit Teilnehmerinnen zu verbinden. Gemäß 
Simon brauche es dazu erfahrene Marketingexperten-mir als Soziologe wird 
ebenfalls die notwendige Expertise zugesprochen — um die sechs verschiede- 
nen Milieus den Teilnehmerinnen zuzuordnen." 

Simon bereitete eine Excel-Datei für uns vor, in der wir alle Wettbewerbs- 
antworten vorfanden, die jeweils um zwei Spalten ergänzt waren. In die erste 
Spalte sollten wir dasjenige Milieu eintragen, von dem wir »vermuten«, dass 
es am besten passt. Die zweite Spalte sei für ein zweites Milieu reserviert, das 
nicht so gut wie das erste passe. Wir könnten auch angeben, dass keine Zu- 
ordnung möglich sei. Sie würden dann eine »Konsensdiagnose« vornehmen: 
Die erste Priorität erhalte zwei Punkte, die zweite Priorität einen Punkt. Un- 
sere Resultate könnten sie dann zu einem »Konsens« »konsolidieren«. Es las- 
se sich dann noch filtern: Wenn drei Personen an einer Stelle das Gleiche sa- 
gen, sei die »reliability« hoch. Wenn alle etwas Unterschiedliches sagen, kön- 
ne man den Datensatz verwerfen. Wenn wir alle unterschiedlicher Meinung 
seien, könne man vom Algorithmus nicht erwarten, dass er das Richtige aus- 
gebe. Jene Fälle, in denen wir als Experten und Expertinnen übereinstimmen, 
verwenden sie als »Goldstandard«—als »absolute Wahrheit«, an dem sich der 
Algorithmus messen muss. 

War im Email undim Gespräch mit Beni noch die Rede davon, dass Sabina, 
Anna und ich gemeinsam ausdiskutieren sollten, welchen Teilnehmerinnen 
wir welche Segmente zuordnen, so ist jetzt gefordert, dass wir dies unabhan- 
gig tun. Esscheintsozu sein, als ware die»intelligence ofthe crowd« nicht deli- 
berativ, sondern die Summe aller Einzelurteile. Anna fragt nach, wie sie damit 
umgehen soll, wenn jemand die Schweiz als Reiseland angebe — was eher bei 
traditionell orientierten Leuten beliebt sei—und dann aber etwas sehr Spezi- 
elles dazu schreibe. Simon antwortet, dass wir das »frei aus dem Bauchgefühl« 
machen sollten, aber alle Lander und alle Antworten beriicksichtigen sollten: 
Wir sollen auf »das Ganze« schauen. Die Antworten seien auch geordnet: Was 
als erstes angebeben wird, sei wichtiger. 

Wir einigen uns darauf, in einem Monate die ersten 600 Wettbewerbs- 
antworten zu kategorisieren. Ich erhalte die Rolle des Koordinators. Tags dar- 
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aufschickt mir Simon den Datensatz. Beim Durchsehen der ersten 50 Antwor- 
ten fällt mir auf, dass Länder und Freitextantworten verschoben sind. Zudem 
sindeinige Textantworten italienisch und französisch. Ich kontaktiere Simon: 
Er ist froh, dass ich ihn auf den Fehler aufmerksam mache und schickt mir die 
richtige Version des Datensatzes. Die italienischen und französischen Text- 
antworten entferne ich, bevor ich Anna und Sabina den Datensatz zur indi- 
viduellen Kategorisierung schicke. 

Die Kategorisierung einzelner Wettbewerbsantworten erweist sich für 
mich und auch die anderen als schwierig und oftmals mehrdeutig: Manche 
Antworten sind kurz und knapp, andere ausführlich und reich an Informatio- 
nen über die Teilnehmerinnen. In beiden Fällen ist die Zuordnung schwierig. 
Manchmal sind zu wenig Informationen vorhanden, um eine befriedigende 
Entscheidung zutreffen. Oder die Antworten zeichnensich durch einen so ho- 
hen Einfallsreichtum aus, dass es unangebracht scheint, die Teilnehmerin auf 
eine stereotype Kategorie zu reduzieren. 

Bei der Präsentation der Resultate bedankt sich Simon, dass wir 600 sol- 
cher Zuordnungen gemacht hätten. Erwitzelt, dass wir wohl mittlerweile eine 
Selbsthilfegruppe gegründet hätten. Damit spricht er ein für Earlybird wichti- 
ges Problem an: Die Zuordnungen handisch vorzunehmen, braucht sehr viel 
Zeit und ist entsprechend teuer: Es »skaliere« nicht und sei »bloody boring«, 
daher sei auch ihre Ambition, eine Software zu machen, die eine solche Zu- 
ordnung automatisiert. Wie schwierig und umstritten die Zuordnungen sind, 
wird gleich nochmals deutlich, als Simon erläutert, dass Konsens über ein 
»majority voting« eruiert wurde. Er gibt ein Beispiel einer Teilnehmerin, wel- 
che die jordanische Stadt Petra besuchen, am Strand die Seele baumeln las- 
sen, mit Walhaien schwimmen und am Burning-Man-Festival in den USA teil- 
nehmen möchte (siehe oben). Zwei der Experten oder Expertinnen, deren 
Identitäten anonymisiert wurden, hätten bei dieser Antwort gesagt, sie sei 
»progressiv postmodern«, einer»Hedonist«. Gemäß»majority voting« werde 
die Antwort dem Milieu »progressiv postmodern« zugeordnet, auch wenn das 
etwas »hemdsärmlig« sei. Mehr Experten seien besser. 

Sabina kommentiert den vorliegenden Fall: Sie meint, diese Antwort sei 
extrem schwierigzuzuordnen, da die drei Antworten sehr unterschiedlich sei- 
en. Simon findet interessant, wie sowohl der Reiseort als auch die Antwort in 
die Beurteilung eingingen. Aber auch die Formulierungen seien interessant, 
sage ich. Zum Beispiel töne »die Seele baumeln lassen« etwas klischiert. Es 
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geht kleine Diskussion los, wie der Fall interpretiert werden soll. Nik ist für 
Young Performer, Beni wirft Action Sportler ein, was Sabina verneint. Beni ver- 
teidigt seine Antwort: Mit Walhaien schwimmen sei mit Risiko und Nervenkit- 
zel verbunden! Nik meint »progressiv postmodern«. Simon beendet die Dis- 
kussion: man könne sehr lange über einen Fall »philosophieren« und Anna, 
Markus und Sabina hatten 600 zugeordnt. Bei 80 der 600 Antworten seien 
wir drei einer Meinung gewesen. Bei zirka 300 ließ sich mit »majority voting« 
ein Milieu zuordnen. Simon ist mit diesen Ubereinstimmungen zufrieden und 
meint, dass sich damit etwas machen lasse. 


10 


»To attempt to »repair« indexicality is to try to fix a machinery that isn't broken. Inde- 
xical expressions do present particular problems for programs in machine translation, 
survey analysis, linguistics, or other academic or practical endeavors for devising for- 
mal representations of practical actions. But once we no longer assume the classic pos- 
ture of an objective observer, the general problem of indexicality dissolves. Ambigui- 
ties and misunderstandings sometimes arise in ordinary communicational activites, 
but even when they do they are repaired through further use of indexical expressions« 
(Lynch, 1992, S. 285). 

TF-IDF ist das »blunt instrument« in der Schublade der Data Science, wie Simon meint. 
Beel et al. (2016) zeigen, dass 83 Prozent aller textbasierten Empfehlungssysteme TF- 
IDF benutzen. Die Idee der»term specificity«—ein Wort ist für einen Text umso charak- 
teristischer, in je weniger anderen Texten des Korpus es vorkommt — wurde von Karen 
Sparck Jones eingeführt (1972, siehe auch: Rieder 2020). 

Menschliche und algorithmische »Interpretation« sind insofern ähnlich, als beide re- 
lativ opak sind (Burrell, 2016). 

Verschiedene Studien weisen darauf hin, dass vor allem besser gebildete, weie Män- 
ner aktivan Wikipedia mitarbeiten (Hargittai & Shaw, 2015). 

»20 Minuten« ist die meistgelesene Schweizer Tageszeitung. Sie liegt an Bahnhöfen 
und Bushaltestellen kostenlos auf. 

Falls der höchste Wert einen bestimmten Schwellenwert nichtübersteigt (konkret: das 
10-Prozent-Quantil in der Verteilung der höchsten Similaritäten), wird die Antwort der 
Kategorie »special groups« zugeordnet. 

Oder alternativ: Wer einen bestimmten Schwellenwert für ein Segment übersteigt, 
wird als »Hedonist« und »Young Performer« behandelt. Wie Martin Degeling betont, 
ist es von Vorteil, über mehr potenzielle Interessen Bescheid zu wissen: »Die Ungenau- 
igkeit im Profiling macht aus der Perspektive der WerbevermarkterInnen allerdings 
durchaus Sinn. Es geht eben nicht darum, eine umfängliche und korrekte Persönlich- 
keitsbeschreibung vorzunehmen, sondern darum möglichst viele aktuelle Interessen 
zu kennen, für welche dann Werbung angezeigt werden kann« (Degeling, 2017, S. 24). 
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8.3 Die Operationen des algorithmischen Vergleichs 


Am Beispiel von Earlybird lässt sich beobachten, wie bestehende Marke- 
tingsegmente (und anderes) in die Funktionsweise algorithmischer Katego- 
risierung eingefaltet werden. Um die Nutzerinnen den jeweiligen Kategorien 
zuzuordnen beziehungsweise zu bestimmen, welche Kategorien am besten 
passen, ist relativ unauffällig auch ein Vergleich eingefaltet. 

Es scheint intuitiv klar zu sein, dass Algorithmen vergleichen. In Aus- 
einandersetzung mit dem analytischen Vergleichsbegriff von Bettina Heintz 
argumentiere ich aber, dass sich die Funktionsweise des algorithmischen 
Vergleichs von »normalen« Vergleichen in zwei Hinsichten unterscheidet. 
Erstens finden algorithmische Vergleiche auf der Hinterbühne statt. Auf der 
personalisierten Benutzeroberfläche präsentieren Unternehmen nicht Ver- 
gleiche, sondern einfache Listen oder Empfehlungen, deren Ordnungsweise 
sich für die Nutzerin nicht ohne Weiteres erschließt. Zweitens zeigt ein de- 
taillierter Blick auf die Operationen des algorithmischen Vergleichs, dass 
nicht Nutzerinnen oder Dinge verglichen werden, sondern paarweise Re- 
lationen. Scores beobachten nicht einzelne Nutzerinnen, sondern paarweise 
Kombinationen von Nutzerinnen und Dingen oder »Kategorien« wie Jugend- 
milieus. 

Bettina Heintz (2010; 2016) stellt einen soziologischen Vergleichsbegriff 
zur Verfügung, der drei Aspekte des Vergleichs analytisch voneinander un- 
terscheidet: 

Erstens können Vergleiche nur dort durchgeführt werden, wo die Ver- 
gleichseinheiten als vergleichbar gelten. Vergleiche beruhen also auf einer 
Kategorisierung und können zur Grundlage weiterer Kategorienbildung wer- 
den. Im letzten Kapitel haben wir gesehen, dass im Bereich der Personenda- 
ten Vergleichbarkeit einerseits durch Encoding, d.h. Standardisierung mög- 
licher Verhaltensweisen, und andererseits durch Vektorisierung hergestellt 


11 Auch Gabrilovich und Markovitch vergleichen ihre Resultate miteinem»menschlichen 
Goldstandard«. »Humans have an innate ability to judge semantic relatedness of texts. 
Human judgements on a reference set of text pairs can thus be considered correct by 
definition, a kind of »gold standard« against which computer algorithms are evaluated« 
(Gabrilovich & Markovitch, 2007, S. 1609). Wie Menschen die »semantic relatedness« 
von Wörtern beurteilen wird über ein Korrelationsmaß damit in Beziehung gesetzt, 
wie Algorithmen die »semantic relatedness« berechnen. ESA erzielt eine höhere Kor- 
relation mit »human judgement« als andere Algorithmen (Gabrilovich & Markovitch, 
2007, S. 1609). 
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werden kann. Heintz macht darauf aufmerksam, dass die Grenzen des Ver- 
gleichs nicht einfach gegeben sind, sondern das Resultat gesellschaftlicher 
Institutionalisierung: Personen für die Volkszählung zu zählen ergibt erst 
dann Sinn, wenn die Bettlerin und die Königin nicht mehr als grundsätz- 
lich verschiedene Wesen gelten, sondern beide gleichwertig der Kategorie 
»Mensch« zugerechnet werden können. Gleichzeitig hat der Vergleich auch 
Effekte: Werden zwei Dinge wiederholt über den Vergleich zueinander in 
Beziehung gesetzt, kann es zu einer Plausibilisierung ihrer Gleichheit kom- 
men - zum Beispiel technische Hochschulen und Universitäten oder private 
und öffentliche Universitäten, deren Vergleichbarkeit von Universitätsran- 
kings unterstellt wird. 

Zweitens benötigt jeder Vergleich ein Vergleichskriterium und dazugehö- 
rige Verfahren, um Ähnlichkeiten und Differenzen zwischen den Vergleichs- 
einheiten fest- beziehungsweise herzustellen: zum Beispiel die von Fourcade 
& Healy (2017b) beschriebenen Credit-Scores. Potenzielle Schuldner müs- 
sen dazu in Bezug auf ihre Bonität vermessen oder eingestuft werden, zum 
Beispiel anhand ihres Einkommens. Während zählen in manchen Fällen aus- 
reicht, ist es meist komplizierter, insbesondere dann, wenn sich das interes- 
sierende Kriterium nicht direkt beobachten oder ohne Weiteres erschließen 
lässt (Mayntz, 2017) - zum Beispiel in der Frage, wie die »Qualität« von 
Kommentaren gemessen werden kann (siehe Kapitel 10.1). Es müssen dann 
Entscheidungen für bestimmte »proxies« getroffen werden, die beobachtet 
oder gemessen werden können und als Stellvertreter Auskunft über das ge- 
suchte Vergleichskriterium geben (zum Beispiel quantitativ feststellbare Be- 
treuungsverhältnisse an Universitäten als Stellvertreter für die Qualität der 
Lehre). 

Drittens funktionieren Vergleiche als »Relationierungsinstrumente«: 


Indem [Vergleiche] Sachverhalte anhand einer dritten Grösse aufihre Unter- 
schiede hin beobachten, stellen sie zwischen diesen einen Sinnzusammen- 
hang her, der um einiges komplexer ist als die Ordnungssstruktur, die sich 
aus der blossen Zuordnung zur gleichen Kategorie ergibt. (Heintz, 2016, S. 
307) 


Dabei handelt es sich um kategoriale oder ordinale Relationen (siehe Four- 
cade 2016b; Heintz 2019 zu Ranglisten als Sonderform des Vergleichs), die 
Sinnzusammenhänge zwischen Einheiten herstellen, ohne dass diese sich 
explizit aufeinander zu beziehen brauchen: Es kommt zu Interdependenzen 
ohne faktische Vernetzung. 
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Algorithmische Vergleiche relationieren ihre Vergleichseinheiten auf un- 
terschiedliche Weise. In »normalen« Vergleichen ist Relationierung ein Effekt 
des öffentlichen Vergleichs: Beispielsweise erzeugen Hochschul- oder Städte- 
rankings potenziell Effekte, indem sie zwischen den verglichenen Einheiten 
Sinnzusammenhänge herstellen und so einen Raum relevanter anderer Ein- 
heiten als Orientierungs- oder Abgrenzungsgrößen aufspannen: Die Zweit- 
platzierte kann die Verhaltensweisen der Erstplatzierten imitieren, muss 
aber gleichzeitig auch die aufholenden Konkurrentinnen im Blick behalten 
(siehe Espeland & Sauder 2007 für Law-School-Rankings). Der algorithmi- 
sche Vergleich verfährt anders: Auch hier wird vergleichen. Doch der Ver- 
gleich findet auf der Hinterbühne statt und wird unsichtbar gemacht. »Kom- 
munikativ erscheinen Empfehlungen nicht als Vergleiche (von Nutzerinnen), 
sondern als Relationen von Dingen« (Unternährer, 2020b, S. 385). 

Bei normalen Vergleichen ist Relationierung ein Effekt der Darstellung. 
Die Vergleichseinheiten (zum Beispiel Skirennfahrerinnen) erfüllen die ka- 
tegorialen Gleichheitsbedingungen, die einen Vergleich sinnvoll erscheinen 
lassen (i.e. weibliches Geschlecht, Qualifikation). Sie werden in Bezug aufein 
Kriterium verglichen (i.e. wie schnell sie den Berg hinunterfahren) und in ei- 
ne (ordinale) Vergleichsordnung gebracht (i.e. die Rangliste). Die einzelnen 
Skifahrerinnen werden in besser-schlechter-Relationen zueinander gesetzt. 
Die Positionierung in der Rangliste bestimmt, wen die Skifahrerinnen und 
ihre Zuschauerinnen als direkte Konkurrenz wahrnehmen. 

Bei algorithmischen Vergleichen ist Relationierung eine rechnerische 
Operation, die Einheiten gleichen Typs (Nutzerinnen mit anderen Nutzerin- 
nen), aber auch Einheiten unterschiedlichen Typs (Nutzerinnen mit Dingen 
wie beispielsweise Filmen) paarweise zueinander in Beziehung setzt (zum 
Beispiel die Berechnung einer Korrelation oder einer Distanz). Scoring- oder 
Empfehlungsalgorithmen relationieren vor allem durch die Feststellung von 
Differenz und Ähnlichkeit, d.h. während der Durchführung des Vergleichs. 
Sind die Vergleichseinheiten vergleichbar (zum Beispiel Nutzerinnen eines 
Collaborative-Filtering-Empfehlungssystems; siehe Kapitel 10.4), wird jede 
Einheit (zum Beispiel Nutzerinnen) mit jeder anderen paarweise in Bezie- 
hung gesetzt. Dann werden die Relationen zwischen den Nutzerinnen in 
Bezug auf »Ähnlichkeit« verglichen. Hinsichtlich einer spezifischen Nutzerin 
lassen sich dann die ähnlichsten anderen Nutzerinnen bestimmen und als 
»genügend gleich« kategorisieren. 

Die Differenz zu normalen Vergleichen besteht darin, dass nicht einzel- 
ne Einheiten verglichen werden, sondern die Relationen zwischen Einheiten. 
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Während zum Beispiel bei Leistungsvergleichen die Leistungsvermessung ei- 
ner Einheit relativ unabhängig von den Leistungen anderer Einheiten ist, ist 
die Berechnung einer Empfehlung auf der Grundlage der Daten nur einer 
Nutzerin nicht möglich.” »[A]s data becomes meaningful and useful on- 
ly when entries from different sources (users) are combined and analysed 
jointly« (Charitsis et al., 2018, S. 828). Der algorithmische Vergleich erzeugt 
neue Relationen durch eine relationale Verdichtung: Alle Einheiten werden 
zu allen anderen Einheiten in Beziehung gesetzt und für jede Einheit wird 
dann verglichen, welche anderen Einheiten am ähnlichsten sind. 

Algorithmische Vergleiche relationieren ihre Einheiten über paarweise 
»matchings«. Das hat Konsequenzen. Der Vergleich neuer digitaler Tech- 
nologien mit der amtlichen Statistik legt nahe, dass sich ein grundlegen- 
der Wandel vollzieht. Dieser verändert nicht nur, wann kategorisiert wird, 
sondern auch wie das geschieht (Heintz, 2021). Alain Desrosieres beschreibt 
in seiner Geschichte der großen Zahlen, dass Kategorien der Messung vor- 
ausgehen: »conventions of equivalence, encoding, and classification [which] 
precede statistical objectification« (Desrosiéres, 1998, S. 236). Algorithmische 
Vergleiche drehen diese Abfolge tendenziell um: 


the relationship between classification and measurement is turned on its 
head. Atleast tosome extent, datafication dissolves the importance of classi- 
fication in measurement (in Desrosiéres’s sense). The relationship between 
classification and measurement is turned upside down. Contrary to what 
Desrosiéres (1998) stated twenty years ago, classification does not precede 
measurement but becomes a result of it. (Mennicken & Espeland, 2019, S. 
237) 


Erst wird gerechnet, dann wird kategorisiert. Diese Umkehrung basiert 
auf einer neuen Art der Datenerzeugung, die zwar nicht auf klassischen Ka- 
tegorien basiert, aber auf quasi-kategorialen, encodierten Verhaltensweisen 
(siehe Kapitel 7). Beruhte beispielsweise die Volkszahlung zuerst auf einer 


12 Außer bei inhaltsbasierten Empfehlungen. Aber auch bei inhaltsbasierten Empfehlun- 
gen stehen die Dinge, d.h. die Inhalte, nicht für sich, sondern immer nur im Verhältnis 
zu allen anderen Inhalten (siehe Kapitel 10.3). 

13 Natürlich ist es nicht so einfach: Encoding lässt sich im Prinzip als basale Form der 
Kategorisierung verstehen. Und es ist auch nicht davon auszugehen, dass Kategorisie- 
rung eine ungeordnete Wirklichkeit ordnet, sondern schon bestehende Formen von 
Ordnung neu sortiert. 
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Fremdzuschreibung der Gezählten zu verschiedenen Klassifikationen wie 
Geschlecht, Beruf, Religion, etc., dann auf einer Selbstzuordnung, bei der 
Kreuze in entsprechenden Feldern gemacht wurden, so setzen aktuelle Ka- 
tegorisierungstechnologien auf Verhaltensdaten. Anstatt die Population der 
Internetnutzerinnen direkt nach ihren Identitätskategorien oder nach ih- 
ren Interessen zu befragen, lassen sich digitale Daten als Spuren dessen le- 
sen, was die Nutzerinnen »tatsächlich« tun (Cardon 2017, kritisch: Rouvroy 
2013, affırmativ: Pentland 2014). Statt von kategorialen Gemeinsamkeiten der 
Subjekte auf ihr Verhalten zu schließen, wird von Verhaltensregelmäßigkei- 
ten auf quasi-kategoriale Gemeinsamkeiten geschlossen (siehe insbesondere: 
Cheney-Lippold 2017; Fisher & Mehozay 2019). 

Personenkategorien und Passungsverhältnisse zwischen Nutzerinnen 
und Dingen werden nicht im Voraus bestimmt, sondern abgeleitet. Perso- 
nen werden dabei nicht als Essenzen verstanden, sondern als Gesamtheit 
ihrer Verhaltensweisen in Relation zu den Verhaltensweisen aller anderen 
Nutzerinnen. Algorithmische Vergleiche basieren dementsprechend auf 
einer »ontology of association« (Amoore, 2011, S. 27). Der algorithmische 
Vergleich ist nicht daran interessiert, zeitlose Wahrheiten über die Nutze- 
rinnen zu produzieren, sondern Personendaten »actionable« zu machen, 
d.h. neue Relationen daraus abzuleiten: »[The data derivative] is not centred 
on who we are, nor even on what our data says about us, but on what can 
be imagined and inferred who we might be« (Amoore, 2011, S. 28). Manche 
Relationen zwischen Nutzerinnen und Dingen erscheinen vielversprechen- 
der als andere. Dafür braucht es einen Vergleich, der für jede Nutzerin die 
passendsten Matches eruieren kann. 


8.4 Matching Devices 


Der Wert von Daten besteht nicht in den Daten per se, sondern in dem, was 
aus den Daten abgeleitet werden kann: »good matches«, d.h. (neue) Relatio- 
nen zwischen Nutzerinnen und Dingen, welche die Relation von Nutzerin 
und Unternehmen festigen. Dementsprechend sind auch nicht Daten selbst 
das veräußerbare Produkt, sondern »tools«, die »good matches« generieren 
können. 


Although data brokers are fuelled with individual information from various 
sources, they do not sell personal data themselves, but business-oriented in- 
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formational products based on specific calculations performed on personal 
data. Their products are lists of qualified leads for direct marketing, mar- 
keting segments describing lifestyles and consumption patterns in general 
terms (e.g. Personicx segmentation by Acxiom), enrichment of existing da- 
tabases, i.e. adding variables to their customers’ CRM bases, and risk cal- 
culation (scoring) on individuals or profiles, particularly in the banking and 
insurance sectors. (Beauvisage & Mellet, 2020, S. 85) 


Personendaten werden in »matching devices« (siehe Karpik 2010 zu »judge- 


ment devices«, Muniesa et al. 2007 zu »market devices«) inkorporiert, welche 


die ökonomischen Beziehungen zwischen Plattform-Unternehmen, Nutze- 


rinnen und Dritten organisieren und am Laufen halten.” 


Von Personendaten zum Classifier-Tool 
Meine Feldforschung bei Earlybird endet, kurz bevor Urs das Kategorisie- 
rungsexperiment an einer akademischen Konferenz präsentiert. Einige Mo- 
nate später erklärt mir Nik in einer Nachbesprechung, dass sie den »classi- 
fier« zu einem Tool weiterentwickelt hätten, das nicht nur bei Earlybird, son- 
dern auch bei anderen Partnerunternehmen eingesetzt werden kann. Early- 
birds Marketingsegmente wurden fallengelassen. Nutzerinnen werden nun 
mit Hilfe von Clusteranalysen direkt miteinander in Beziehung gesetzt, d.h. 
Nutzerinnen, deren Freitexte sich im Wikipedia-Vektorraum nahe beisam- 
men befinden, werden derselben Kategorie zugeordnet. Dieses »smart cus- 
tomer segmentation«-Tool kann auch in ganz anderen Kontexten eingesetzt 
werden, da der Bezug zum ursprünglichen Wettbewerb und den dadurch ge- 
nerierten Daten praktisch unsichtbar gemacht wurde. 

Nik beginnt seine Erklärung mit der Aussage, dass sie die Jugendmilieus 
abgeschafft hätten. Diese seien schlecht und »Kacke«. Die Milieubeschrei- 
bungen hätten nichts ausgesagt. Sie würden es nun anders machen, näm- 


Nicht nur Unternehmen befassen sich mit der Erzeugung von »good matches«: Auf 
Plattformen wie Amazon, Youtube, Instagram, etc. sind auch die Nutzerinnen damit 
beschäftigt, ihre Produkte, Videos oder Bilder so zu gestalten, dass sie für ihre Follower 
möglichst ansprechend sind. Sie optimieren ihre Posts und deren Verbreitung, indem 
sie die algorithmische Selektion und Priorisierung anhand von Alltagstheorien (»folk 
theories« bei Eslami et al. 2016 oder »algorithmic gossip« bei Bishop 2019) antizipie- 
ren — beispielsweise indem sie ihre Inhalte in spezifischen Zeitfenstern teilen, wenn 
möglichst viele ihrer Follower wahrscheinlich online sind. 
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lich mit Clusteringverfahren. Nik zeichnet verschiedene mögliche Wettbe- 
werbsantworten auf: Berg, Pilatus, Macchu Pichu. Diese Antworten verorten 
sie dann im Wikipedia Korpus (angereichert durch das »20 Minuten«-Korpus 
für den Schweizer Sprachgebrauch, zum Beispiel Begriffe wie » Natel«, »Velo«, 
etc.) und drücken jeden Begriff der Antwort als Vektor aus. Wenn man jetzt 
»bergaffine Leute« heraussuchen möchte: Wie bringt man das der Maschine 
bei? Man müsse wissen, wie ähnlich die Wörter zueinander seien. Das macht 
der Algorithmus. Die Arbeit des Algorithmus stellt er als einen kreisförmigen 
Pfeil dar: Darin würden die Antworten so verarbeitet, dass Gruppen wie die 
Marketingsegmente herauskommen, nur dass sie nicht mehr die Segmente 
verwenden und auf die Antworten matchen, sondern direkt aus den Antwor- 
ten ähnliche Gruppen generieren. 

Es ließen sich dann aus den Daten verschiedene »Personas« definieren. 
Personas seien Vorstellungen der Firma oder der Marketingabteilung darüber, 
wer ihre Kunden »da draussen« sind. Er gibt ein Beispiel: Rudi ist im Sportver- 
ein, rudert, hat 10 kg Übergewicht. Seine Kunden würden sich ihre Kunden in 
solchen Stereotypen vorstellen. Diese Analysen würden es ermöglichen, neue 
und genauere Personas zu definieren oderzu überprüfen, ob bestehende Per- 
sonas sich auch tatsächlich inden Daten wiederfinden lassen. Man könne den 
Stereotyp Rudi mit seinen tatsächlichen Interessen vergleichen. 

Man müsse sich dann entscheiden, wie viele Zielgruppen man brauche 
und überhaupt »handlen« könne, d.h. für wie viele Zielgruppen die Marke- 
tingabteilung Kampagnen entwickeln könne. Die Kampagnen basieren dann 
nicht mehr auf Segmenten, sondern auf den meistverwendeten oder wich- 
tigsten Begriffe der einzelnen Cluster. Diese Begriffe ließen sich »ausspielen«. 
Man erhalte also»interessensbasierte« Cluster, die man für Marketingkampa- 
gnen verwenden könne. 

Nik nutzt den Classifier auch für die Kundenakquise, d.h. als Demonstrati- 
on, um anderen Unternehmen Datenanalyse als Dienstleistung schmackhaft 
zu machen. Das Ziel des Tools sei es, Firmen dabei zu helfen, ihre Kunden 
dank Textdaten besser kennen zu lernen und ihnen den »Mehrwert«von Kun- 
dendaten zu vermitteln. Er konnte auch schon den ersten Erfolg verbuchen: 
Ein weiteres Reiseunternehmen wollte den Classifier ausprobieren, um mehr 
über seine eigenen Kundinnen zu erfahren. Der Classifier als »freebie« soll 
als Fuß in der Tür funktionieren: Potenzielle Kundinnen sollen vom Potenzial 
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der Datenanalyse überzeugt werden, damit sie Earlybird Digital mit weiteren 
Analysen beauftragen. 


Aus Earlybirds Kategorisierungsexperiment entsteht ein Classifier-Tool, das 
in zweifachem Sinn ein Beziehungsgenerator ist. Das Tool generiert pro- 
spektive Beziehungen zwischen Nutzerinnen und Dingen (beziehungsweise 
»Deals«, die Partnerunternehmen anbieten). Aus bestehenden Nutzerdaten 
leitet der Classifier kategoriale Zugehörigkeiten ab, die darüber Auskunft 
geben sollen, welche weiteren Dinge für die Member interessant sein könn- 
ten. Die Segmente sollen zu einem Instrument für die Marketingabteilung 
werden, um in ihren verschiedenen Kampagnen den einzelnen Membern die 
»richtigen«, für sie interessanten, »Deals« zu präsentieren. 

Andererseits lassen sich aus Personendaten nicht nur prospektive Rela- 
tionen zwischen dem datengenerierenden Unternehmen und seinen Nut- 
zerinnen ableiten. Auch Relationen zu Dritten lassen sich generieren und 
festigen. Earlybirds Idee ist es, zu einer Werbeplattform zu werden, die den 
Partnerunternehmen Zugang zu spezifischen Segmenten innerhalb der Ziel- 
gruppe aller Jugendlichen bieten kann.” In diesem Sinn werden Personen- 
daten - d.h. deren Generierung, Verarbeitung und In-Wert-Setzung - zur 
zentralen Ressource in der Generierung von Relationen zwischen der Platt- 
form, den Werbekundinnen und den Nutzerinnen (Fourcade & Kluttz, 2020; 
Gerlitz & Helmond, 2013). Die durch Personendaten ermöglichten Relatio- 
nierungsweisen dienen als Kitt, der Unternehmen und Nutzerinnen (und 
Dritte) über »good matches« von Nutzerinnen und Dingen zusammenhalten 
soll. 

»Good matches«, die auf Personendaten beruhen, ermöglichen öko- 
nomische Beziehungen. In dieser Herstellung von Passungsverhältnissen 
zwischen verschiedenen ökonomischen Akteuren (Plattformen, Nutze- 
rinnen, (Werbe-)Kundinnen) sehe ich das zentrale Wertversprechen der 
digitalen Ökonomie, deren Geschäftsmodelle vor allem aus Werbung, 
Kunden- und Nutzerbindung besteht. Digitale Verhaltensdaten informieren 
über vergangene Handlungen von Nutzerinnen. Der Wert dieser Daten 
kommt aber erst dann zu Stande, wenn die Daten zu anderen Daten algo- 
rithmisch in Relation gesetzt werden, um daraus neue, potenziell daten- 


15 Earlybird ist bereits eine Plattform, die Partnerunternehmen und Banken Zugang zur 
»Zielgruppe der Jugendlichen« als Ganzes bietet. 
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und profitgenerierende, Relationen abzuleiten. Dies führt wiederum zu 
neuen relationalen Verwicklungen und Personendaten. 

Die Generierung neuer Relationen ist entscheidend und wird beispiels- 
weise in der prominenten Kritik von Pariser (2011) übersehen. Nutzerinnen 
befinden sich nicht in einem »you-loop« (Pariser, 2011, S. 16): »your profile 
is only made meaningful and commodifiable to marketers in and alongside 
the context of other users’ profiles« (Kant, 2020, S. 35). 

Dass der Classifier von Earlybird Digital am Ende selbst zu einem Ge- 
schenk wird, illustriert die Relevanz von Geschenken in der digitalen Ökono- 
mie. Personendaten werden als beziehungsgenerierende Geschenke »hervor- 
gerufen«. Die Beziehungen werden kurzzeitig entfernt, um Personendaten 
als warenförmige Ressource weiter verarbeiten zu können, um daraus neue 
Relationen abzuleiten. In der Form passender Empfehlungen, dem »richti- 
gen Angebot zur richtigen Zeit« oder personalisierter Werbung, kehren Per- 
sonendaten zu den Nutzerinnen zurück.” 


16 Siehe auch Wendy Chun: »[V]Jalue is not generated by one YOU but rather by a plethora 
of YOUs: by the very interconnections between the various YOUs« (Chun, 2016, S. 118). 

17 Minna Ruckenstein und Julia Granroth (2019) ziehen gar in Betracht, dass Unterneh- 
men und Nutzerinnen ein »intimes« Verhaltnis zueinander eingehen. Die »intimacy 
of surveillance« kann auf Seiten der Nutzerinnen durchaus lustvoll sein — wenn sie von 
den Unternehmen richtig erkannt und eingeschatzt. Aber auch negative Erfahrungen 
der Kategorisierung gehoren zum Alltag von Nutzerinnen, wenn sie sich falsch kate- 
gorisiert werden oder eine (zu gute) Empfehlung ihnen das Gefühl gibt, in ihren heim- 
lichen Interessen ertappt worden zu sein. 
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9 Empfehlungssysteme 
als Datafizierungsmaschinen 


Empfehlungssysteme sind zu allgegenwärtigen Mediatoren digitaler Räume 
geworden. Empfehlungssysteme selektieren, sortieren und bewerten Infor- 
mationen, Angebote und Inhalte für Nutzerinnen. Vordergründig lösen sie 
das Problem des »information overload«, ein Überfluss an Wahlmöglichkei- 
ten, der die Nutzerinnen zu überfordern und handlungsunfähig zu machen 
droht (Kapitel 9.1). Ein Blick auf die Geschichte der Segmentationspraktiken 
des Marketings zeigt, dass die Entwicklung von Beobachtungstechnologien 
eine immer weitere Ausdifferenzierung des Publikums erlauben: Während 
Empfehlungssysteme auf der Benutzeroberfläche das Übermaß an Dingen 
reduzieren, vervielfältigen sie im Hintergrund prospektive Relationen zwi- 
schen Nutzerinnen und Dingen in Form von »Interessen«, »Segmenten« oder 
Ähnlichem (Kapitel 9.2). Personalisierte Empfehlungssysteme verinnerlichen 
unsere drei Momente der Datafizierung. Sie zielen darauf ab, dauerhafte Be- 
ziehungen zwischen Nutzerinnen und Unternehmen zu etablieren. Die viel 
diskutierte »Personalisierung« besteht darin, Unternehmen und Nutzerin- 
nen weiter miteinander zu verwickeln und gleichzeitig weitere Personenda- 
ten und prospektive Relationen zu produzieren. Empfehlungssysteme gehen 
über traditionelle Marketingtechniken hinaus, da sie den Fokus verschie- 
ben: Sie generieren nicht nur aus Personendaten ökonomische Beziehungen. 
Sie sind auch Datafizierungsmaschinen, die auf der Basis von Beziehungen 
wertvolle Daten produzieren (Kapitel 9.3). 


9.1 Die Qual der Wahl 


Empfehlungssysteme präsentieren sich den Nutzerinnen als hilfreiche und 
benevolente Technologien, die es einfacher machen, sich angesichts einer 
Fülle von Wahlmöglichkeiten zu entscheiden. Sie setzen sich als Interme- 
diäre (Morris, 2015) zwischen das überbordende Angebot an Dingen und 
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die Nutzerin. Empfehlungssysteme selektieren und priorisieren für uns »In- 
halte« und motivieren beziehungsweise »nudgen« (Thaler & Sunstein, 2009; 
Yeung, 2017) uns zu weiterem Konsum. Streaming-Plattformen wie Netflix, 
Amazon Prime Video oder Spotify, News-Aggregatoren wie Reddit, Google 
Newsfeed oder Blendle sowie soziale Netzwerke wie Facebook, Twitter, Insta- 
gram oder TikTok gestalten das Portal zu ihrer Welt mithilfe automatisierter 
Empfehlungsdienste. Welche Filme, Konsumartikel, potenzielle Liebespart- 
nerinnen oder Werbungen uns online präsentiert werden, ist keineswegs 
zufällig. Auf Netflix kommen 80 Prozent der »stream time« über Empfeh- 
lungen zustande (Chong, 2020). Bei Youtube sind es 70 Prozent (Solsman, 
2018). Das ist möglicherweise weniger durch die Macht der Empfehlungssys- 
teme begründet als durch deren Allgegenwart. Xavier Amatriain (2013), von 
2011 bis 2015 Teamleiter des Machine-Learning- und Recommender-Teams 
bei Netflix, schreibt über die Benutzeroberfläche von Netflix: »Everything is a 
Recommendation«. Zufällige (zum Beispiel alphabetische) oder rein chrono- 
logische Ordnungen existieren zwar, sind aber oftmals nur schwer auffind- 
bar. Sie verbergen sich hinter den Standardeinstellungen einer Sortierung 
nach »persönlicher« oder »genereller« Relevanz (i.e. Hits).’ »The ubiquity of 
[recommendation] systems [...] quietly structures every choice made online 
as a recommendation« (Cohn, 2019, S. 48). 

Für welches Problem sind Empfehlungssysteme eine Lösung? Im Selbst- 
verständnis der Computerwissenschaften oder in den Erklärungen von 
Plattform-Unternehmen adressieren Empfehlungssysteme das Problem des 
Überflusses und der Unordnung der digitalen Welt. Es gibt eine zu große 
Menge an wählbaren Dingen, die von einfachen Nutzerinnen und Konsu- 
mentinnen nicht mehr bewältigt werden könne. »Nur durch Begrenzung 
ist die Freiheit der Wahl überhaupt möglich [...] die Unübersichtlichkeit 
des Webs fordert geradezu Ordnungsstrukturen oder Hierarchien, die 
Signifikanz erzeugen« (Schröter, 2004, S. 117). Das Problem des »informa- 
tion overload« ist in der Literatur zu Empfehlungssystemen oftmals das 


1 Angesichts der Allgegenwart von Empfehlungssystemen ist die Frage instruktiv, wo 
noch andere Ordnungsweisen verwendet werden. Ein kurzer Blick auf alternative Vi- 
deostreamingportale wie Filmingo oder Mubi zeigt, dass die automatisierte Empfeh- 
lung keineswegs die einzige Möglichkeit wäre, Dinge für Nutzerinnen anzuordnen. 
Filmingo präsentiert zum Beispiel in der Kategorie »Director's Choice« Filmempfeh- 
lungen bekannter Regisseurinnen. 
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Ausgangsproblem, das von den vorgeschlagenen Systemen adressiert wird.” 
Das wird im »Recommender Systems Handbook« (Ricci et al., 2011) am 
Beispiel von Online-Shops illustriert: 


The appearance and growth of online markets has had a considerable im- 
pact on the habits of consumers, providing them access to a greater variety 
of products and information on these goods. While this freedom of purchase 
has made online commerce into a multi-billion dollar industry, it also made 
it more difficult for consumers to select the products that best fit their needs. 
One of the main solutions proposed for this information overload problem 
are recommender systems, which provide automated and personalized sug- 
gestions of products to consumers. (Desrosiers & Karypis, 2011, S. 107) 


»Information overload«, »choice overload«, »analysis paralysis« (Stanley & 
Clipsham 1997; fiir einen Uberblick: Edmunds & Morris 2000) oder »informa- 
tion glut« (Andrejevic, 2013) erscheinen als zentrales Problem des Internets 
und der digitalen Ökonomie. Die Konfrontation mit unzähligen Méglichkei- 
ten paralysiere Nutzerinnen, so dass sie sich vor lauter Möglichkeiten gar 
nicht entscheiden könnten. Diese Problemdiagnose ist erstaunlich, gilt doch 
die Größe (und Qualität) des Angebotes vor allem als positiv: Nutzerinnen 
werden als Konsumentinnen imaginiert, deren Tätigkeit in einer freien Aus- 
wahl aus einer Reihe von Optionen besteht (Gabriel & Lang, 2015). Dholakia 
et al. (2019) sprechen gar von einer Ideologie der freien Wahl: »The availabi- 
lity and abundance of choice is seen as unequivocally good, and are readily 
conflated with the celebrated ideas of freedom and democracy« (Dholakia 
et al., 2019, S. 337). Streaminganbieter wie Spotify schließen daran an, wenn 
sie Zugang zu »Millionen Songs« beziehungsweise zu vollständigen oder zu- 
mindest riesigen Archiven versprechen.? Die »proliferation of choice« wird 


2 »Information overload«istein altes Phänomen, dessen Neuheit periodisch immer wie- 
der festgestellt wird, wie ein kursorischer Blick in die Literatur zu »information over- 
load« zeigt (Rosenberg, 2003; Edmunds & Morris, 2000; Levy, 2008). Der Ursprung des 
Phänomens lässt sich wahlweise im 13. Jahrhundert (Blair, 2003, 2011), zur Zeit der 
Erfindung des Buchdruckes 1450-1550 (Stalder, 2016), als Ursache (Noyes & Thomas, 
1995) oder Resultat der industriellen Revolution (Levy 2008 referierend auf Beniger 
1986), mit dem Aufkommen der Wissensgesellschaft (Machlup, 1972) und elektroni- 
scher Datenverarbeitung (vor seiner Zeit: Bush 1945; Bell 1999) oder doch erst mit der 
Verbreitung des Internets (Shenk, 1997; Andrejevic, 2013) lokalisieren. 

3 Plattformen profitieren auch von Netzwerkeffekten: Je mehr Nutzerinnen auf Social- 
Media-Plattformen oder je mehr Songs oder Filme auf Streamingplattformen zu fin- 
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zwar gefeiert, stellt die Konsumenten aber auch vor Probleme: »The enor- 
mity of choices create formidable difficulties. Consumers find this enormity 
almost impossible to navigate and must rely on a number of resources to 
guide them« (Gabriel & Lang, 2015, S. 28). Die Frage ist also, wie aus Millio- 
nen Songs eine Playlist von 30 Songs wird, aus tausenden von Filmen einer 
ausgewählt werden kann, den ich heute Abend anschauen will. Iyengar & 
Lepper (2000) finden in Laborstudien Evidenz, dass sogar schon die Aus- 
wahl aus 30 gegenüber sechs Wahlmöglichkeiten zu »demotivation« führen 
können (für eine Übersicht zum Phänomen »choice overload« siehe Chernev 
et al. 2015). 

Die Satire-Webseite The Onion greift dieses Dilemma in einem fiktiven 
Bericht über ein neues Netflix-Abonnement auf: 


Streaming giant Netflix announced its new payment plan this week which 
offers users the option to just browse endlessly without watching any vide- 
os. According to CEO Reed Hastings: >For just 5 Dollars a month we're giving 
customers affordable access to Netflix's most popular function scrolling th- 
rough our robust library of titles and posters without ever deciding on a sin- 
gle one. The new plan will allow users to add titles to their queue that they'll 
never watch and we'll still give users helpful recommendations for what else 
to browse«. (The Onion, 2014, k.S.) 


Eine Studie von Eszter Hargittai et al. (2012) relativiert das Problem des »in- 
formation overload«: »Only a scattered few participants expressed a sense of 
being overwhelmed by the volume of information or the type of media they 
encountered« (Hargittai et al., 2012, S. 171). Russell Neuman stellt lapidar fest: 
»It may be simply that the refined tools of digital search are keeping up with 
the digital information abundance« (Neuman, 2019, S. 204). Auch Hargittai 
et al. (2012) sehen »refined tools« wie Empfehlungssysteme als entschar- 
fende Faktoren (siehe auch Edmunds & Morris 2000).* Morris und Powers 


den sind, umso besser. Die damit verbundene Tendenz zur Monopolbildung bedeutet, 
dass gleichzeitig Massen- und Nischenmarkt bedient werden muss. 

4 Gleichzeitig ist auch anzumerken, dass die Nutzerinnen selbst über Strategien ver- 
fügen, mit Überfluss umzugehen, zum Beispiel »Abstumpfung« (siehe analog Georg 
Simmel (1903) zur Blasiertheit der Großstädter). Nutzerinnen zeigen beispielsweise 
gemäß Benway & Lane (1998) sogenannte »banner blindness«, i.e. die Tendenz, Ban- 
nerwerbung relativ gezielt zu ignorieren. Diese Art des Umgangs mit Onlineinhalten 
verweist aber auch auf weitere Strategien der Reduktion: zum Beispiel die kategoriale 
Unterscheidung von legitimen, »relevanten« Inhalten und Werbung beziehungsweise 
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bemerken, dass der Verweis auf (musikalischen) Überfluss mit Bemühungen 
verbunden ist, diesen überbordenden Strom der Musik zu kanalisieren und 
einzugrenzen: 


discourse about constant, free-flowing and abundant access to all music all 
the time readily feeds into notions of control, curation and stemming the 
tide — a process carried out for us, expertly and discretely, by our service of 
choice. (Morris & Powers, 2015, S. 109) 


Empfehlungssysteme sind oftmals von solchen Metaphern des Uberflusses 
begleitet: Empfehlung erscheint als geeignete und notwendige Lösung dieses 
Problems. Jonathan Cohn (2019) beschreibt, wie die positive Erfahrung des 
Shoppens - »strolling through aisles and enjoying the variety and vastness 
of Americas bounty and consumer choices« - durch die Erfindung automa- 
tisierter Empfehlungssysteme als ineffizient und als eine Last umdefiniert 
wurde.? 1961 führte die Warenhauskette Neyman Marcus ein automatisches 
»gift advisory system« ein, das auf IBM-Technologie beruhte und den Kun- 
dinnen Fragen stellte, um ihre Präferenzen - oder die Präferenzen ihrer Ehe- 
männer — zu eruieren. »Through these recommendations, making a choice 
was framed as a »burden«, while automated computer technologies became 
the solution« (Cohn, 2019, S. 2). 

Die Redefinition von Überfluss als Problem legitimiert Empfehlungssys- 
teme gegenüber den Nutzerinnen und rahmt digitale Überwachung und Da- 
tensammlung als »give-to-get« (Fourcade & Kluttz, 2020). Wenn Wählen an- 
gesichts des Übermaßes eine so mühselige Tätigkeit ist, stellen Nutzerinnen 
gerne ihre Verhaltensweisen und Meinungen bereit, um im Gegenzug (per- 
sonalisierte) Empfehlungen zu erhalten und nicht in »clutter and confusion« 
(Vaidhyanathan, 2011) unterzugehen. 


zwischen Ham und Spam. Gemäß Finn Brunton (2013, S. 48) lässt sich Spam als eine 
»violation of salience« beschreiben, »barraging everyone indiscriminately with their 
lame message« (Brunton, 2013, S. 201). Spam kann man problemlos ignorieren, wo- 
durch schon mal ein großer Teil an Emails oder Werbeinhalten wegfällt. 

5 Andrew Abbott (2014) beschreibt »redefinition« als Strategie, mit Überfluss umzuge- 
hen. Er führt als Beispiel Web-Surfing an, eine Praxis, in der die zufällige Ordnung der 
Dinge als positiv gedeutet wird: »A common example [of redefinition] is surfing the 
web or, to give the equivalent for an earlier generation, reading encyclopedias. To en- 
counter a randomly ordered source and simply read through it is to wander arbitrarily 
through the enormous excess of knowledge, to choose randomness as positive good« 
(Abbott, 2014, S. 20). 
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9.2 Die Differenzierung des Publikums 


Unternehmen progagieren Empfehlungssysteme als Vorteil für Nutzerinnen, 
um die richtigen Dinge schneller zu finden. Es geht aber keineswegs nur 
um die Sortierung und Priorisierung der Dinge. Wie ein kleiner historischer 
Abriss der Konsumentenbeobachtung zeigt, geht es aus der Perspektive der 
Unternehmen darum, Nutzerinnen zu sortieren. Das Grundproblem, das so- 
wohl Marketing als auch Empfehlungssysteme adressieren, ist im Anschluss 
an Beniger ein Kontrollproblem. Es tritt auf, wenn Produktion und Konsum 
räumlich, zeitlich und sozial auseinandertreten. Marketing und verschiedene 
Hilfstechnologien der Kundenbeobachtung sollen die Lücke zwischen Kon- 
sumenten und Dingen schließen und Tauschverhältnisse repersonalisieren. 


Das Kontrollproblem 


James Beniger beschreibt die Entwicklung von Informationstechnologien als 
Reaktion auf eine Kontrollkrise. Die Industrialisierung im 19. Jahrhundert 
führt zu einer massiven Beschleunigung der Produktion und Verteilung von 
Gütern, die sich nicht mehr mit den bestehenden Mitteln kontrollieren ließ. 
Durkheim beschrieb dies als Übergang von segmentär differenzierten zu 
funktional differenzierten, »organischen« Gesellschaften: 


The producer can no longer embrace the market in a glance, nor even in 
thought. He can no longer see limits, since it is, so to speak, limitless. Ac- 
cordingly, production becomes unbridled and unregulated. (Durkheim 1893: 
369-370; zitiert in Beniger 1986, S. 11) 


Die Kontrollkrise besteht darin, dass Güter seit der Erfindung der Dampf- 
maschine nach Belieben hergestellt, transportiert und verschoben werden 
können, »with full speed of industrial production, night and day and under 
virtually any conditions« (Beniger, 1986, S. 12). Produktion, Verteilung und 
Konsum können nicht mit den bestehenden Mitteln unter Kontrolle gebracht 
werden, so dass es zu einer Reihe von »control revolutions« kommt: Bü- 
rokratie, Rationalisierung und die Erfindung von Informationstechnologien 
wie zum Beispiel Lochkarten (Driscoll, 2012), Telegrafie und Telefonie oder 
die »mass feedback«-Technologien der Marktforschung tauchen als Lösun- 
gen für die diversen Kontrollprobleme auf. Die Vervielfachung von Gütern 
ist mit einer Vervielfachung von Technologien zur Kontrolle ihrer Verteilung 
und Zirkulation gekoppelt: »[T]he very success of the late nineteenth century 
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in learning how to manage accelerated flows of goods seemed to be leading 
to a crisis of overproduction« (Levy, 2008, S. 508). 

Die Herausbildung von Werbeindustrie und Marktforschung ist die Re- 
aktion auf das Problem der Überproduktion. Diese wiederum schufen ih- 
re eigenen Informationsgüter, um Bedürfnisse zu erzeugen, Märkte zu er- 
schließen und um Wissen über Konsumenten und ihre Verhaltensweisen zu 
gewinnen (Beniger 1986, Kapitel 8; Turow 2003, 2008). Kommerzielle Über- 
wachungstechnologien stellen gemäß Matthew Crain eine Antwort auf die 
Krise der Überproduktion dar. Über Marketing und die damit verbunde- 
ne Beobachtung von Konsumentinnen werden Produktion und Konsum von 
physischen, aber auch medialen, Gütern aneinander gekoppelt: »Increasing- 
ly, engaging in consumer surveillance is simply the price of doing business 
for all commercial enterprises« (Crain, 2018, S. 98). Das bedeutet, dass bü- 
rokratische Technologien der Kontrolle in den Dienst der Uberwachung von 
Konsumentinnen gestellt werden: »the industrial construction of audiences« 
(Turow & Draper, 2014) beziehungsweise verschiedene Formen von »ma- 
nufacturing customers« (Zwick & Denegri Knott, 2009) basieren auf einer 
Beobachtung von Konsumentinnen, um Informationen über ihre Vorlieben, 
Interessen, Geschmäcker, etc. zu erzeugen, die von Unternehmen bedient 
werden kénnen.° 


Die Differenzierung des Massenpublikums 


Eine gängige Periodisierung unterteilt die Geschichte des Marketings in vier 
Phasen (Tedlow 1996, kritisch: Berghoff et al. 2012). Fragmentierte, regio- 
nal operierende Märkte wurden nach 1880 von »mass marketing« abgelöst, 
das nationale Märkte zusammenführte. Zwischen 1920 und 1980 folgte eine 


6 Wie Levy feststellt, kommt es dabei zu einer »ironischen« Entwicklung: »the more in- 
formation that is produced to manage and control other forms of production, distribu- 
tion, and consumption, the greater the need to manage this new information as well« 
(Levy, 2008, S. 508). Amazon Reviews sind ein illustratives Beispiel für die Selbstver- 
stärkung und Selbstreferenzialität des »information overload«-Problems. Trevor Pinch 
(2012) zeigt in einer Analyse von Amazons Reviewingsystem, wie Problem und Lösung 
des Overflows selbstverstärkend wirken. Weinberger (2007, S. 13) bringt es auf den 
Punkt, wenn er über die Fotoarchivierung und die Zugänglichkeit des Archivs schreibt: 
»however we solve the photo crisis, it will be adding more information to images, be- 
cause the solution to the overabundance of information is more information«. 
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Phase der Segmentierung, welche Konsumentinnen nach Alter, Lebenssti- 
len, Einkommen und anderen sozioökonomischen Variablen differenzierte. 
Seit 1980 differenzieren Marketer noch feiner: »hyper-segmentation« ten- 
diert dazu, »each customer as a separate market« zu sehen (Holbrook & 
Hulbert, 2002, S. 716). Die Geschichte des Marketings ist so gesehen eine 
Fortschrittserzählung, wie Marketer lernen, Kundinnen und ihre Interessen, 
Präferenzen und Bedürfnisse immer detaillierter zu erfassen. 

Wie Pridmore und Zwick (2011) darlegen, kam es Mitte des 20. Jahrhun- 
derts zu einer Paradigmenverschiebung im Marketing: In den 1940er-Jahren 
war die Überwachung von Konsumentinnen »motivated by a company’s in- 
tention to align consumer preferences for products and brands with what 
was being produced«. Ab den 1950er-Jahren setzte sich eine Orientierung 
an den Bedürfnissen der Kundinnen durch. Statt Konsumentinnen dazu zu 
bringen, bestimmte Produkte zu begehren, empfahlen Marketingfachleute 
nun, zu produzieren, was die Konsumentinnen sich wünschen (Pridmore & 
Zwick, 2011, S. 269). Turow verdeutlicht, was dieser Paradigmenwechsel von 
einem relativ homogen vorgestellten Massenpublikum - durch die Figur des 
Durchschnittskonsumenten repräsentiert — zu heterogenen Nischen bedeu- 
tet. 

In der ersten Hälfte des 20. Jahrhunderts hielten Marketingabteilungen 
den Konsumentinnen das Bild einer typischen amerikanischen Familie als 
erstrebenswertes und nachzuahmendes Ideal vor: »Keeping up with the Jo- 
neses«, beschreibt die Versuche amerikanischer Marketer, Konsumentinnen 
Neid auf die besser gestellten Nachbarinnen einzuträufeln und sie so zum 
Konsum anzuhalten. »Large numbers of Americans live a great life by get- 
ting the latest products that everybody wants - and you should too« (Turow, 
2008, S. 17). Diese Orientierung an einem Idealbild der relativ wohlhaben- 
den Kernfamilie »Jones« beinhaltet eine starke Homogenitätsannahme, die 
sich nicht nur im Marketing, sondern auch in den frühen Publikumsvorstel- 
lungen der Massenmedien finden. Diese setzten einen durchschnittlichen 
»universal receiver« (Fisher & Mehozay, 2019) voraus, der gleichermaßen als 
Orientierungspunkt für Konsumentinnen wie auch für Marketingaktivitäten 
diente. 

Eine stärker differenzierende Wahrnehmung und Konstruktion von Kon- 
sumentinnengruppen löst diese Vorstellung des homogenen Massenpubli- 
kums mit seinen Durchschnittskonsumenten ab. »Ihe notion of an avera- 
ge consumer has become fiction« (Gabriel & Lang, 2015, S. 231), wie Turow 
schreibt: 
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As the mass-oriented periodicals and network radio went down in flames, 
new target-oriented industries arose from the ashes. Magazines and radio 
stations that called out to specific audience categories—by gender, race, age, 
lifestyle tastes—became the norm. Many advertisers found these sorts of di- 
vision useful. Increased competition was leading manufacturers to design 
ways to differentiate products so that smaller and smaller numbers of a pro- 
duct could be made and marketed profitably to certain segments of society. 
Spurred by the need to learn about the niches that might use the products, 
market research firms were coming up with new ways to differentiate parts 
of the population of interest to manufacturers, retailers and media. Items 
that seemed basic suddenly were changed to fit various lifestyles. (Turow, 
2008, S. 38) 


Der Durchschnittskonsument weicht einer heterogenen Multitude verschie- 
dener Typen von Konsumentinnen, deren Verhaltensweisen und Konsum- 
entscheidungen in zunehmendem Maß Objekte der Beobachtung werden. 
Wurden zu Beginn vor allem anonymisierte, statistische Bevölkerungs- und 
Marktforschungsdaten sowie Samplingstrategien genutzt - die keine Identi- 
fikation und Rückverbindung zu einzelnen Konsumentinnen erlaubten; »[i]n 
the mass media era, members of the audience have no individual existence« 
(Fisher & Mehozay, 2019, S. 1182) -, so fußt die hochauflösende Beobachtung 
von Kundinnen auf digitalen Kundendatenbanken (Zwick & Denegri Knott, 
2009) und Kundentreueprogrammen (Pridmore, 2010; Coll, 2013, 2016). Diese 
können Informationen über jede Transaktion auf einzelne Konsumentinnen 
zurückführen. Die US-amerikanische Firma Acxiom, gab im Geschäftsbe- 
richt von 2014 an, über die Daten von weltweit 700 Millionen Menschen zu 
verfügen. Datenbroker wie Acxiom unterscheiden Konsumentinnen und ih- 
re »Lebensstile« nach Hunderten von Variablen. In den USA hätten sie über 
3000 »Verhaltenswahrscheinlichkeiten« für praktisch jede Amerikanerin er- 
mittelt. 


Acxiom's »Consumer Data Products Catalog: from 2011 lists hundreds of»da- 
ta elements which corporate clients can obtain about individuals or house- 
holdstocompletetheir customer databases. Inaddition to basic information 
such as name, age, gender, phone numbers, email addresses, education, oc- 
cupation, children, income and credit card use, detailed records on housing 
and vehicle ownership are available. In the »geography and address cate- 
gory, 25 different attributes are available, in the sethnicity< category ten at- 
tributes — for example several »race codes«. In addition, data on voting party 
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and>interests<such as»dieting/weight loss<, »casino<«, »gambling«, »lotteries<or 
»smoking/tobacco<are available. Data on health »needs< such as>allergy rela- 
ted arthritis/mobility:, ¿disabled individual in the household and »diabetic 
focus« is »derived from purchases and self-reported sources«. (Christl & Spie- 
kermann, 2016, S. 95, Hervorhebungen entfernt) 


Wahrend Konsumentinnen zuvor im Sinne von »Populationen« (Ruppert, 
2012) mit bestimmten durchschnittlichen Eigenschaften gedacht wurden, 
rückt mit der Möglichkeit der individuellen Rückverfolgbarkeit von Verhal- 
tensweisen die individuelle Konsumentin in den Fokus - wenn auch als Teil 
differenzierbarer, provisorischer und relativer (kategorialer) Zugehörigkei- 
ten (Lury & Day, 2019, S. 21). Zentral für die individuelle Rückverfolgbarkeit 
sind neue Datentypen wie Transaktions- (Lauer, 2020) und Verhaltensdaten 
(Seaver, 2018) sowie Infrastrukturen (Alaimo & Kallinikos, 2019; Kornberger 
et al., 2019). Richard Rogers (2009) benennt diesen Bruch als einen Übergang 
zu »post-demographics«. Anstelle einer an die soziologische Meinungs- und 
Umfrageforschung anschließenden Marktforschung, die traditionelle Kate- 
gorien zur kausalen Interpretation von Nutzerinnen verwendet, basieren 
post-demografische Methoden auf neuen Datenformen: 


Demographers normally would analyze official records (births, deaths, 
marriages) and survey populations, with census taking being the most 
well known of those undertakings. Profilers, contrariwise, have users input 
data themselves in platforms that create and maintain social relations. 
They capture and make use of information from users of online platforms. 
(Rogers, 2009, S. 30) 


Die Differenz von post-demografischen Methoden der Datengenerierung 
sieht Rogers (2009) vor allem darin, dass Nutzerinnen ihre Interessen 
selbst mitteilen. Diese Art der Mitteilung interpretiert Rogers tendenziell 
als explizite Mitteilung: Die Nutzerinnen füllen entsprechende Felder auf 
Profilseiten (i.e. Lieblingsbücher, -bands, -musikerinnen, etc.) aus, was 
dem Ausfüllen eines Fragebogens nahekommt. Obwohl Rogers Begriff der 
»post-demographics« intuitiv evident erscheint, ist die Verwandtschaft von 
demografischen und post-demografischen Vorgehensweisen bei ihm weit- 
gehend erhalten: Die Art und Weise der Datenerzeugung orientiert sich an 
Abfragen von Interessen und Einstellungen sowie demografischen Variablen. 
Dennoch bleiben demografische Angaben relevant. Sie können nun aber 
auf andere Arten erzeugt werden, wie Cheney-Lippold (2017) zeigt (siehe 
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auch Kapitel 8). Kategorien wie das Geschlecht werden zu »measurable 
types«, die aus bestehenden Personendaten abgeleitet werden können. Es 
kann »gemessen« werden, wie stark die Verhaltensweisen einer Nutzerin, 
deren Geschlecht unbekannt ist, den Verhaltensweisen des »measurable 
type« »Frau« entsprechen. Die Übereinstimmung von gelebten Kategorien 
und algorithmischen Kategorien ist für Unternehmen irrelevant. Wichtiger 
ist, ob die Nutzerin sich in digitalen Infrastrukturen wie eine Frau verhält: 
»Google’s gender is a gender of profitable convenience« (Cheney-Lippold, 
2017, S. 7).” 

Das bedeutet, dass Nutzerinnen nicht mehr über bekannte und benenn- 
bare Kategorien des Sozialen definiert sind: Die einzelne Nutzerin erscheint 
stattdessen in Relationen zu Dingen, die sie angeklickt, angesehen oder ge- 
teilt hat und in Korrelation zu anderen Nutzerinnen, die sich ähnlich wie 
sie verhalten. Welchen Kategorien Nutzerinnen tatsächlich angehören, wird 
dabei zunehmend unbedeutend - zumindest für die Maschine: »you don't 
need to know whether someone is male or female, queer or straight, you 
just need to know his or her patterns of purchases and find similar clus- 
ters« (Bowker, 2014, S. 1796). Im Werbebereich braucht es möglicherweise 
eine »Rückübersetzung« von algorithmischen Protokategorien, »in order to 
make the information intelligible for the [ad] buyer, since most buyers are 
used to thinking in terms of age, gender, income, education, etc.« (Bolin & 
Andersson Schwarz, 2015, S. 8). 

Um Interessen, Kategorien oder Konsumneigungen berechnen zu kön- 
nen, braucht es »mehr« Daten, d.h. es müssen vermeintlich unbedeutende, 
aber weitaus öfter vorkommende, Verhaltensweisen wie »linking«, »view- 
ing«, »following«, etc. mobilisiert werden, um statistisch belastbare Rück- 
schlüsse ziehen zu können (Alaimo & Kallinikos, 2017, S. 184f.). Soziale Netz- 
werke und andere Plattformen sind nicht nur »post-demographic«, son- 
dern auch »post-transactional« insofern sie nicht nur die eher seltenen Er- 
eignisse einer ökonomischen Transaktion aufzeichnen und auswerten.® Jo- 


7 Wie David Graeber in seiner Kritik der Bürokratie formuliert, werden administrative 
Technologien zum Selbstzweck und Ziel der technologischen Entwicklung: Zum Bei- 
spiel lässt sich Social Media aus dieser Perspektive als eine effektivere Technologie »for 
the filling out of forms« (Graeber, 2015, S. 142) begreifen. Dank ihr müssen keine Häk- 
chen mehr gesetzt werden, weil aus den sozialen, an andere Nutzerinnen adressierten, 
Verhaltensweisen auf kategoriale Zugehörigkeiten zurückgeschlossen werden kann. 

8 Josh Lauer bemerkt in seiner Studie zu Transaktionsdaten, die über Kreditkartenzah- 
lungen entstehen, dass die Entdeckung von Transaktionsdaten oftmals den Techgigan- 
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seph Konstan, eine zentrale Figur in der Entwicklung von Empfehlungssys- 
temen, berichtet von der »Entdeckung« dieser Verhaltensdaten: aus jeglichen 
Online-Aktivitäten - Klicks, Views, Mausbewegungen, Scrolling, Sucheinga- 
ben, etc. - können Daten gemacht werden, die sich für Empfehlungssysteme 
nutzen lassen. Anfang der 1990-Jahre wurden solche Aktivitäten kaum als Da- 
ten verstanden und auch nicht aufgezeichnet: Sie verschwanden weitgehend 
ungenutzt (siehe auch: Zuboff 2018, vgl. das Zitat von Mary Modahl in: West 
2017, S. 26). 


[Konstan] noted that much of their work in the mid1990s was inspired by 
the idea that the economy was becoming more focused on the value of in- 
formation. They saw that there was a great deal of online user activity (in the 
form of, among other things, clicks, reading habits, and preferences) that at 
that point was simply disappearing, and he and his colleagues felt it was a 
»no-brainer<to make this information both valuable and useful for users and 
companies alike; recommendation systems helped make this information 
economy: possible. (Cohn, 2019, S. 44) 


Diese Entdeckung, aus der »interaction« von Nutzerinnen und digitalen Ob- 
jekten individuell rückverfolgbare Personendaten zu machen (Fisher & Me- 
hozay, 2019, S. 1182), erlaubte eine immer hochauflösendere Beobachtung 
und eine damit verbundene Multiplikation der Differenzierungsmöglichkei- 
ten: 


The algorithmic episteme puts us in a completely different numerical uni- 
verse, with possibly hundreds of variables and hundreds of values for each 
variable. To the extent that such data could be rendered in natural language 
(e.g. via a table), it would contain thousands upon thousands of rubrics, ma- 
king it impossible to process. (Fisher & Mehozay, 2019, S. 1185) 


Die statistische Beobachtung des Massenpublikums mithilfe sozialer Katego- 
rien soll Nachfrage und Angebot koordinieren, wozu die Nutzerinnen in im- 


ten, insbesondere Google, zugeschrieben wird. Transaktionsdaten seien aber schon 
viel früher als wertvolle Ressource erkannt worden: »The value of transactional data 
was recognized much earlier, not by Google, but by other capitalists—namelly, credit- 
granting department stores during the 1920s and credit card companies during the 
1970s and 1980s. Both retailers and banks mined their payment records for insight in- 
to the buying habits, interests, and future profitability of their customers. The history 
of payment cards thus reveals the deep roots of surveillance capitalism and efforts to 
transform data into capital« (Lauer 2020, S. 3, vgl. auch Dixon & Gellman 2014, S. 80). 


9 Datafizierungsmaschinen 


mer feinere Kategorien eingeteilt werden. Radikalisiert durch die technolo- 
gische Innovation von Kundendatenbanken lässt sich individuelles Konsum- 
verhalten in Echtzeit registrieren. Abstrakte, durch Samplingverfahren gene- 
rierte Publika, weichen individuellen Nutzerprofilen, die in Bezug auf ihre 
Ähnlichkeiten und Differenzen vermessen werden. Dabei werden relativ sta- 
bile, in ihrer Zahl überschaubare, soziale Kategorien tendenziell durch tem- 
poräre, nur noch von Maschinen verarbeitbaren, »patterns« ersetzt: Mess- 
bare Ähnlichkeits- und Differenzbeziehungen von Nutzerinnen werden zur 
Grundlage der Marktkoordination. 

Die Erschließung nationaler oder globaler Märkte verunmöglichte, was 
historisch gesehen lange Zeit Usus war: der »personalisierte«, auf gegen- 
seitiger Wahrnehmung und Kenntnis beruhende Austausch von Gütern 
und Dienstleistungen.” Neue Personalisierungstechniken mit unpersönli- 
chen Verfahren sollen diese Manko beheben (siehe Moor & Lury 2018 zu 
Preispersonalisierung). 


9.3 Personalisierung 


Markttausch und Personalisierung schließen sich in der Theorie aus: Märkte 
sind Plattformen, auf denen Angebot und Nachfrage anonym aufeinander 
treffen, um Ware gegen Geld tauschen. Zwischen Käuferin und Verkäuferin 
braucht weder vorher noch nachher eine Beziehung zu bestehen. Sie müssen 
idealerweise nichts voneinander wissen, außer dass die Käuferin über den 
verlangten Kaufpreis und die Verkäuferin über die gewünschte Ware verfügt. 
Die Beziehung besteht alleine im Tausch. 

Wie die Geschichte der Kundenbeobachtung und des Marketings zeigt, 
sind Unternehmen aber stets bemüht, Wissen über ihre Kundinnen zu erzeu- 
gen, um langfristige Beziehungen beziehungsweise »customer relationships« 
aufzubauen und ökonomische Beziehungen zu »repersonalisieren« (Hart, 
2001; Moor & Lury, 2018). 


The shift towards >relationships< as the crucial metaphor for understanding 
producer-consumer interactions has helped ensure a business strategy fo- 
cused on developing and nurturing long-term relationships with profitable 


9 »Records dating to biblical times show that merchants have adjusted the choice of 
merchandise, its price, and even the location for completing the sale based on an un- 
derstanding of the particular shopper« (Turow, 2017, S. 135). 
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consumers in order to create a sustainable competitive advantage. These re- 
lationships are seen to help retain loyal and more profitable customers, ma- 
king opportunities for up-selling and cross-selling easier and more effective. 
This requires personal information to be actively sought and compiled about 
both current and potential clients in order to establish corporate-consumer 
relationships that go beyond a single commercial transaction. (Pridmore, 
2012, S. 323) 


Im Anschluss an die vorigen Kapitel schlage ich vor, die Bedeutung »perso- 
nalisierter« Empfehlung, die aus dem Marketing kommt, ernst zu nehmen 
und Personalisierung nicht so sehr als Singularisierung zu verstehen - das 
ist sie offensichtlich nicht, da das Individuum sich nur durch die Linse der 
anderen betrachten lässt (siehe Kapitel 8) -, sondern im Sinne von »good 
matches«: als Intimisierung oder Familiarisierung der Beziehung zwischen 
Unternehmen und Nutzerin, was in der Sprache des Marketings als ein Fo- 
kus auf »customer relationships« bezeichnet wird (Pridmore, 2012, 2013).1° 

Auf der Benutzeroberfläche, d.h. auf der Vorderbühne reduzieren Emp- 
fehlungssysteme den Überfluss an Informationen, Artikeln oder Angeboten 
und adressieren Nutzerinnen in ihrer Singularität: Filme, die dich interes- 
sieren könnten; Songs extra für dich; weil du diesen Artikel gelesen hast, 
könnte dich auch jener interessieren. Die für Nutzerinnen sichtbare Ord- 
nung der Dinge ist »personalisiert« und stellt sich jeder Nutzerin auf (mehr 


10 Dieser in den 1990er-Jahren aufkommende, durch »database-marketing« ermöglich- 
te Fokus auf »customer relationships« ist verbunden mit einer zunehmenden Diffe- 
renzierung der Kundschaft mit der Leitunterscheidung profitabel/unprofitabel. Eine 
Binsenwahrheit des Marketings besagt, dass 20 Prozent aller Kundinnen für 80 Pro- 
zent aller Umsätze verantwortlich sind (zudem gilt es als sehr viel schwieriger, eine 
Neukundin zu gewinnen als bestehende Kundinnen zu halten). Aber welche Kundin- 
nen gehören zu diesen 20 Prozent, und wie können sie zur Rückkehr gebracht werden? 
Das ist die Grundlage für Targeting: Die Identifikation, Adressierung und Belohnung 
der besten Kundinnen mit dem höchsten »lifetime-value«. Das Mantra des Marketings 
kehrt Paretos Regel um: »Focus 80 percent of your efforts on the 20 percent of custo- 
mers who provide 80 percent of your profit« (Turow, 2008, S. 6f.). Die Beobachtung 
der Kundschaft dient in diesem Sinne der Unterscheidung von profitablen und weni- 
ger profitablen Kundinnen, um den profitablen mehr Aufmerksamkeit zukommen zu 
lassen. Personalisierung im Sinne von Empfehlungssystemen generalisiert den »cus- 
tomer relationships«-Ansatz auf alle Nutzerinnen, nicht nur die vielversprechendsten. 
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oder weniger) unterschiedliche Weise dar.” Gemäß Netflix, Amazon oder 
Facebook sind für mich andere Dinge relevant als für andere.” 


In Kapitel 9.1 habe ich dargestellt, dass automatisierte Empfehlungssys- 


teme auf das Problem der Multiplikation von Konsumoptionen reagieren. 


Wie Chris Anderson bemerkt, lockert die Verlagerung von physischen Ge- 


schäften ins Internet eine ihrer zentralen Beschränkungen: Lohnte es sich 


für physische Geschäfte aufgrund von Raumknappheit nur dann, ein be- 


stimmtes Produkt im Regal zu haben, wenn eine große Menge davon re- 


gelmäßig verkauft wird, können Webshops - und in noch gesteigertem Maß 


die Anbieter von rein digitalen Informationsgütern wie Musik, E-Books oder 


Konnte die Personalisierung Ende der 1990er-Jahre noch als Gegenmittel zu einer ni- 
vellierenden Mono- oder Mainstreamkultur verstanden werden (z.B. Gladwell 1999; 
Negroponte 1996; Chayka 2019), ist Personalisierung aktuell vor allem Gegenstand 
der Kritik. Weil Empfehlungssysteme »personalisieren«, d.h. den Nutzerinnen unter- 
schiedliche Dinge anzeigen, untergraben sie den demokratischen Diskurs und den ge- 
sellschaftlichen Zusammenhalt (Pariser, 2011; Sunstein, 2009, 2017) oder führen uns 
immer tiefer in den Kaninchenbau von Extremismus und Verschwörungstheorien (Tu- 
fekci, 2018). Die Funktion der Massenmedien, eine»shared social reality« herzustellen, 
werde angesichts weitgehender Ubiquität von Personalisierung erschwert (Just & Lat- 
zer 2017, S. 246, Turow 2010). Es lässt sich nicht mehr ohne Weiteres bestimmen, was 
als allgemein bekannt und anerkannt vorausgesetzt werden darf, da sich alle Internet- 
beziehungsweise Plattformnutzerinnen in ihren eigenen »filter bubbles« und »Echo- 
kammern« wiederfinden. Zu einer Kritik der Filterblasen-Kritik siehe: Bruns 2019; Flax- 
man etal. 2016, polemisch: Unternährer 2020a. Da personalisierte Empfehlungssyste- 
me zudem auf Personendaten angewiesen sind, gelten sie als Inbegriff von Überwa- 
chung und Privatsphäreverletzungen (Van Dijck, 2014; Mai, 2016; Zuboff, 2015), aber 
auch als Verstärker von bestehenden Vorurteilen und Ungleichheiten (siehe zum Bei- 
spiel: Noble 2018; Benjamin 2019; Cohn 2019). 

Eine Reduktion von Überfluss geschieht im Fall von Empfehlungssystemen auf spezi- 
fische Weise. Während Journalistinnen oder andere menschliche Expertinnen spezi- 
fische Relevanzkriterien kennen, um den Strom an Dingen einzudämmen (siehe Zit- 
train 2006 zur Geschichte des »Online-Gatekeeping«), selektieren, sortieren und prio- 
risieren Empfehlungssysteme nach eigenen »Kriterien« der Relevanz — nach der »Re- 
levanz« von Personalisierungsalgorithmen. Menschliche Expertise als Lösung für die 
zeitgenössische Informationsflut scheint weniger wichtig zu werden. Relevanz wird 
nicht über Beurteilung, sondern über Berechnung bestimmt. Relevant ist, was die Al- 
gorithmen automatisierter Empfehlungssysteme als relevant postulieren. »Relevanz« 
ist tendenziell nicht mehr etwas, das allgemeingültig ist, sondern erst in Relation zur 
einzelnen, spezifischen Nutzerin entsteht (Kant 2020, S. 36, Van Couvering 2007; Just 
& Latzer 2017). 
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Videos - eine weitaus größere Menge an Dingen feilhalten (siehe auch Wein- 
berger 2007). Anderson appelliert an digitale Unternehmen, sich dies zunut- 
ze zu machen, indem sie weniger auf »Hits« und mehr auf den »long tail« 
fokussieren sollten, d.h. auf jene Dinge, die selten verkauft werden, von de- 
nen es aber eine sehr große Menge gibt, sofern der Katalog »tief« genug 
1st: 


What's really amazing about the Long Tail is the sheer size of it. Combine 
enough nonhits on the Long Tail and you've got a market bigger than the 
hits. [...] lf the Amazon statistics are any guide, the market for books that are 
not even sold in the average [physical] bookstore is larger than the market 
for those that are. (Anderson, 2004) 


Andersons Schlussfolgerung ist: Weg von den Hits, hin zu den obskuren, 
aber doch von einzelnen nachgefragten, »misses«. Weg von Massenmark- 
ten, hin zu Abertausenden von Nischenmärkten. Er legt den Unternehmen 
der digitalen Ökonomie also nahe, möglichst vollständige Kataloge bereitzu- 
stellen (siehe Amazon für Bücher, Spotify für Musik) um alle auch noch so 
esoterischen Interessen bedienen zu können.” 

Die Frage ist, wie Angebot und Nachfrage in diesem Überfluss an An- 
geboten zusammen kommen. Oder: Wie lassen sich Nutzerinnen und Din- 
ge verbinden? Um jemandem statt den neuesten Tarantino Kassenschlager 
einen obskuren Film des polnischen Independent Cinema vorzuschlagen, 
braucht es Informationen über Nutzerinnen und ihre Vorlieben. Anderson 
schlägt vor: »Use recommendations to drive demand down the Long Tail« 
(Anderson, 2004). 

Empfehlungssysteme bieten sich als Matching-Mechanismen an, »deter- 
mining which content will be prioritized for which user« (Andrejevic, 2013, 
S. 199). Sie schalten sich als neue Intermediäre, sogenannte »infomediaries«, 
zwischen Konsumentinnen und Produzentinnen und vermitteln (kulturelle) 
Produkte (Morris, 2015). Dabei handelt es sich aber nicht um eine einfache 
Weitergabe, sondern um eine möglichst passgenaue Adressierung spezifi- 
scher Segmente oder einzelner Konsumentinnen. Auf der Hinterbühne der 


13 Zwei Softwareingenieure eines großen Schweizer Webshops erklärten mir in einem 
Interview, dass Popularität für Empfehlungssysteme ein Problem darstelle, da immer 
wieder die gleichen, populären Dinge angezeigt würden. Ihr Ziel sei aber, die Nutze- 
rinnen mit personalisierten Empfehlungen in den »Long Tail« ihres Warenkatalogs zu 
bringen. 
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Herstellung von Empfehlungen haben wir es weder mit einer Vereinzelung 
noch mit einer Reduktion zu tun, sondern mit dem Knüpfen von Relationen. 
Es geht nicht um die individuelle Nutzerin, sondern um die Beziehung zwi- 
schen der Nutzerin und Dingen und die Beziehung zwischen der Nutzerin 
und dem Unternehmen. Personalisierung ist so gesehen eine komplexe Ver- 
dichtung von Relationen zwischen verschiedenen beteiligten Einheiten, die 
auf die Etablierung von (langfristigen) ökonomischen Beziehungen zielt. 

Wie ich in Kapitel 6 dargelegt habe, besteht eine erste Schwierigkeit dar- 
in, überhaupt Nutzerinnen auf die eigene Webseite, App oder Plattform zu 
locken. Oftmals braucht es dafür »inducement gifts«, welche die ökonomi- 
schen Beziehungen in Gang bringen. Sobald die Nutzerinnen beginnen, ihre 
Spuren zu hinterlassen, können ihre Verhaltensweisen (entweder gleichzeitig 
oder post-facto) zu Daten gemacht und verarbeitet werden. Über algorithmi- 
sche Vergleiche werden Nutzerinnen und Dinge »relationiert« und prospekti- 
ve Beziehungen abgeleitet. Diese Relationierung findet auf einer weitgehend 
formalen Ebene statt, indem die verschiedenen Einheiten durch Rechen- und 
Vergleichsoperationen zueinander in Beziehung gesetzt werden. Auf welche 
verschiedenen Arten und Weisen diese »Relationierung« stattfinden kann, 
zeige ich in Kapitel 10. 

Der Clou von Empfehlungssystemen besteht darin, dass sie nicht nur 
Informationen über die Nutzerinnen benötigen, um ihre Vermittlungsfunk- 
tion zu erfüllen, sondern diese Informationen im Fall ihres Funktionierens 
auch produzieren. Personendaten sind sowohl Treibstoff als auch Produkt 
der Verwicklung von Nutzerinnen, Dingen und Unternehmen. Personalisie- 
rung wird dabei als »convenient« und »goodwill gesture« gerahmt, um das 
Tracking der Nutzerinnen als faire Gegenleistung für passende Angebote zu 
positionieren (Kant, 2020, S. 5). 

Vom »customer relationship management« und den Kundentreuepro- 
grammen der 1990er-Jahre zum Businessmodell der »personal information 
economy« (Elmer, 2004) findet eine Verschiebung statt. Plattformen und Da- 
ta Broker schieben sich als Dritte zwischen Produzentinnen und Konsumen- 
tinnen. Der Fokus verschiebt sich darauf, Nutzerinnen in Datafizierungsin- 
frastrukturen zu verwickeln, um Personendaten beziehungsweise daraus ab- 
geleitete »words« (Bermejo, 2009, S. 150), »Interessen« (Degeling, 2017) oder 
»Segmente« (Turow, 2003) zu produzieren, die dann von zahlenden Wer- 
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bekundinnen bedient werden können.” Diese Verschiebung lässt sich am 
Beispiel von Googles Entwicklung illustrieren: Wie Shoshana Zuboff (2018) 
beschreibt, nutzte Google die von der Suchfunktion generierten Personenda- 
ten, um ihre Dienstleistungen zu verbessern und genauer auf die Bedürfnisse 
der Nutzerinnen eingehen zu können. Das »symbiotische« Verhältnis von Su- 
che und Nutzerinnen, die gegenseitig voneinander lernen konnten, benennt 
Zuboff mit dem Begriff des »Verhaltenswert-Reinvestitionszyklus«, in dem 
alle von den Nutzerinnen hinterlassenen Daten in die Verbesserung des Pro- 
duktes zugunsten der Nutzerinnen reinvestiert wird. Das war vor allem die 
Vision früher Entwickler von Empfehlungssystemen. Google machte daraus 
ein datenbasiertes Geschäftsmodell, wie Zuboff eingehend beschreibt: Das 
Nebenprodukt entwickelt sich zum Hauptprodukt und die Dienstleistungs- 
relationen zwischen Unternehmen und Kunden ändern sich grundlegend: 
Die Kunden sind nicht länger die Nutzerinnen, so Zuboff, sondern, im Fall 
der neu als Werbeplattformen ausgerichteten Unternehmen wie Google oder 
Facebook, die Werbetreibenden. Was zuvor »data exhaust« war, werde nun 
zu »behavioral surplus« und zur Grundlage von Profit, d.h. es werden mehr 
Daten erzeugt, als für die reine Verbesserung des Produkts »Suche« benötigt 
werden. Der Stellenwert von Personendaten verschiebt sich dabei unauffällig: 
Wurden Personendaten zuvor genutzt, um gute Beziehungen zu erhalten, 
werden nun »gute« Relationen von Personen und Dingen zum Generator 
weiterer Personendaten. Social-Media-Plattformen zeigen ihren Nutzerin- 
nen Posts derjenigen Freundinnen, die sie mit größerer Wahrscheinlichkeit 
zu den datenförmigen Verhaltensweisen wie anklicken, liken oder teilen, etc. 
führen. Shoppingplattformen zeigen mir, was sich mir ähnliche Nutzerin- 
nen auch angeschaut haben, um vielleicht doch noch das Produkt zu finden, 
das ich tatsächlich kaufen möchte. Indem Empfehlungssysteme ökonomi- 
sche Beziehungen zwischen Unternehmen und Nutzerinnen auf Dauer stel- 
len, erzeugen sie nicht nur neue, abgeleitete Relationen, sondern auch neue 
Aktivitäten, d.h. Verhaltensweisen, die wiederum zu Daten und zu neuem 
»engagement« umgewandelt werden können. 

Wie Robert Bodle (2014) feststellt, basiert Personalisierung auf einem »al- 
gorithmically generated feedback loop«, in dem aus vergangenen Verhaltens- 


14 Bei Earlybird läuft die Produktion von Interessen über eine »Taxonomie der Interes- 
sen«: Jedem Deal oder Wettbewerb wird eine (oder mehrere) Kategorien zugeordnet. 
Indem Nutzerinnen Deals anklicken, liken oder an Wettbewerben teilnehmen, äußern 
sie ihr Interesse für eine Interessenskategorie. 
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weisen der Nutzerinnen die Selektion passender Dinge abgeleitet wird. Per- 
sonalisierte Empfehlungssysteme sind Datafizierungsmaschinen, die neue 
Relationen zwischen Nutzerinnen und Dingen herstellen und aus den daraus 
motivierten Verhaltensweisen neue Daten produzieren. Personendaten »are set up 
to multiply themselves« (Gerlitz & Helmond, 2013, S. 1360) in Rückkopplungs- 
schleifen von »positive sentiment in which users are constantly prompted to 
like, enjoy, recommend and buy« (Gerlitz & Helmond, 2013, S. 1362). Wah- 
rend Empfehlungssysteme auf der Vorderbühne auf die Verknappung von 
Inhalten setzen, findet auf der (algorithmischen) Hinterbühne eine »Verviel- 
fältigung kommunikativer Interessen« statt (Wehner, 2010, S. 18). Nicht die 
Nutzerinnen sind das Produkt von digitalen Plattformen, sondern aus deren 
Verhaltensdaten abgeleitete prospektive Relationen. In ihrer Idealform sind 
Empfehlungssysteme der Motor, der den Kreislauf von datengenerierenden 
Verhaltensweisen und verhaltensgenerierenden Daten am Laufen halten. 

In den drei Momenten der Datafizierung werden Nutzerinnen dazu ver- 
anlasst, sich in digitale Infrastrukturen zu begeben, sie zu nutzen und dabei 
Personendaten in einer Form zu hinterlassen, die ihre Verhaltensweisen auf 
verschiedene Weisen vergleichbar und verwertbar machen. Aus diesen Daten 
leiten Unternehmen neue Relationen zu ähnlichen Nutzerinnen oder passen- 
den Dingen ab, denen sie die Form von Empfehlungen geben - »Kunden, die 
diesen Artikel angesehen haben, haben auch angesehen« (Amazon.de), »Per- 
sonen, die du kennen könntest: Du und Y haben 7 gemeinsame Freunde« 
(Facebook), »Because you liked/watched Bridgerton« (Netflix). Ein Ziel die- 
ser Form des Marketings besteht darin, die Beziehung zwischen Nutzerin 
und Unternehmen am Laufen zu halten, indem der Katalog aller möglichen 
Dinge für die Nutzerinnen auf die (individuell) »passendsten« oder »rele- 
vantesten« Dinge reduziert wird (die sich möglicherweise im Long Tail des 
Katalogs befinden). Was »passt«, ist dabei aber immer relativ: Insbesonde- 
re für Werbeplattformen ist es von Vorteil, für ihre Werbekundinnen mög- 
lichst viele »Interessen« beziehungsweise prospektive Relationen vorrätig zu 
halten. Ein »perfect match« ist weder wahrscheinlich noch das Ziel: »[Al- 
gorithms] make no claims to capture the truth, only to function« (Fisher & 
Mehozay 2019, S. 1186, siehe auch Van Couvering 2007). In diesem Sinne sind 
die beobachteten Individuen immer nur provisorisch, den Kategorien immer 


15 Siehe auch Sadowski 2019 zum Imperativ der digitalen Ökonomie, aus Daten mehr 
Daten zu produzieren. 
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nur teilweise entsprechend (Lury & Day, 2019), immer bereit, anderen Ka- 
tegorien teilweise zu entsprechen oder neue Interessen anzunehmen (siehe 
auch Kapitel 8). Empfehlungssysteme - verstanden als Momente der Datafi- 
zierung — erachte ich dementsprechend als zentrale Technologien, die nicht 
nur auf diese »neu erfundenen« Verhaltensdaten setzen und daraus neue 
Relationen erzeugen, sondern gleichzeitig prospektive Relationen zwischen 
Nutzerinnen und Dingen und neue Verhaltensdaten generieren. 

Empfehlungssysteme reduzieren und produzieren Überfluss: Auf der 
Vorderbühne reduzieren sie das Angebot an »content« für Nutzerinnen auf 
ein Maß, das der Fortführung ihrer Aktivitäten möglichst entgegen kommt. 
Auf der Hinterbühne differenzieren Empfehlungssysteme ihre Nutzerinnen 
und produzieren »Interessen« in Form prospektiver Relationen, die genutzt 
werden, um darüber zu entscheiden, was einer Nutzerin als Nächstes 
angezeigt wird. Bei Erfolg kommt es zu einem Kreislauf von »engagement«: 
Daten (bzw. Verhaltensweisen) gegen Empfehlungen gegen Daten usw. 

Im nächsten Kapitel widme ich mich der Frage, wie der Kreis bezie- 
hungsweise die Rückkopplungsschleife geschlossen wird: Wie verbinden ver- 
schiedene Typen von Empfehlungssystemen Nutzerinnen mit Dingen? Wie 
stellen Empfehlungssysteme Passungsverhältnisse zwischen Nutzerinnen 
und Dingen her? Dabei beschreibe ich vier Typen von Empfehlungssystemen 
und ihre Verfahren, wie sie Nutzerinnen von digitalen Dienstleistungen mit 
anderen Nutzerinnen und Dingen in Beziehung setzen. 


10 Die Vielfalt der Empfehlung 


In diesem Kapitel untersuche ich, wie verschiedene Typen von Empfehlungs- 
systemen eine Brücke zwischen Dingen und Nutzerinnen schlagen und da- 
mit den Kreislauf der Momente der Datafizierung zugleich vollenden und 
neu starten. An den Vergleichsbegriff von Bettina Heintz (2010; 2016) ange- 
lehnt, bezeichne ich diesen Brückenschlag zwischen Nachfrage und Ange- 
bot, zwischen Nutzerinnen und Dingen als »Relationierung«. Damit meine 
ich die technische Operation, in der Nutzerinnen und Dinge zueinander in 
Beziehung gesetzt werden, um im Sinne von »good matches« die Beziehung 
zwischen Nutzerinnen und Unternehmen aufrechtzuerhalten und weitere 
Anschlusshandlungen zu motivieren. 

In Auseinandersetzung mit Joseph Konstans und Michael Ekstrands 
Kurs »Introduction to Recommender Systems« identifiziere ich vier Ide- 
altypen von Empfehlungssystemen, die sich in ihren Quantifizierungs-, 
Kategorisierungs-, Bewertungs- und Vergleichsweisen unterscheiden." 
Während ich in den Kapiteln 6 bis 8 die drei Momente der Datafizie- 
rung analytisch isoliert und in ihrer sequenziellen Logik dargestellt habe, 
fokussiere ich mich nun auf das dritte Moment: Wie relationieren die 
vier unterschiedlichen Typen von Empfehlungssystemen Nutzerinnen und 
Dinge, d.h. wie verdichten sie die Beziehungen zwischen den verschiedenen 
Einheiten, um Empfehlungen abzuleiten? 

Popularitätsmetriken bringen Dinge in besser/schlechter Relationen. Sol- 
che Ranglisten sind in dem Sinn unpersonalisiert und »objektiv«, da allen 
Nutzerinnen die gleichen Dinge (z.B. die besten Filme aller Zeiten) angezeigt 
werden. Sie unterstellen, dass das Populäre für alle gleichermaßen relevant 
ist, da sie keine Differenzen zwischen Nutzerinnen beobachten (10.1). 


1 Sich im Betrieb befindende Empfehlungssysteme sind um einiges komplexer als die 
von mir beschriebenen Varianten (siehe Seaver 2019 zur Komplexitätsfrage von Algo- 
rithmen). Laufende Systeme kombinieren verschiedene dieser Logiken und basieren 
auch auf neueren Ansätzen, deren Beschreibung ich hier nicht vornehmen kann. 
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Die stereotypisierende Empfehlung beruht auf askriptiven, demografischen 
Kategorien wie Alter oder Geschlecht, die über Konventionen oder gruppen- 
spezifische Popularitätsmetriken Relationen zwischen Gruppen und Dingen 
herstellen. Solche Verfahren beruhen auf einer Form der kategorialen Rela- 
tionierung, einer Art Deduktion: Männer mögen Actionfilme, Frauen mögen 
Chick-Flicks. Nutzerin X ist eine Frau. Ergo: Empfehle Chick-Flicks (10.2). 

Inhaltsbasierte Empfehlungen relationieren Nutzerin und Dinge über 
Matchings, d.h. über den Vergleich von paarweisen Nutzerin/Ding- 
Relationen (anstatt nur Dinge oder nur Nutzerinnen miteinander zu 
vergleichen). Die ontologische Differenz zwischen Nutzerin und Ding 
wird dabei irrelevant: In Suchapplikationen ist die Nutzerin als Liste 
von (Such-)Begriffen repräsentiert, wie auch Dinge als Kombination von 
Begriffen repräsentiert sind (10.3). 

Collaborative Filtering relationiert Nutzerinnen und Dinge über ein dop- 
peltes Matching. Das Matching von ähnlichen Nutzerpaaren führt zu fluiden, 
quasi-kategorialen »Nachbarschaften« der ähnlichsten Nutzerinnen, welche 
die Grundlage für das zweite Matching bieten: Den Vergleich von Nutze- 
rin/Ding-Relationen (10.4). 

Obwohl der Fokus auf der Art und Weise der Relationierung liegt, ist es 
nicht möglich, das erste und zweite Moment der Datafizierung vollständig 
auszuklammern. Insbesondere die Frage der Herstellung von Vergleichbar- 
keit erweist sich in den Relationierungsverfahren immer wieder als proble- 
matisch, da sich idiosynkratische Vergleichseinheiten (seien es Kommenta- 
re wie in 10.1 oder Nutzerinnen wie in 10.4) trotz weitgehendem Encoding 
immer noch der Vergleichbarkeit entziehen. Die Formalisierung von Ver- 
haltensweisen wie zum Beispiel die encodierten Bewertungsmodi »upvote« 
und »downvote« auf Reddit oder die Bewertung von Filmen auf einer Ska- 
la von 1 bis 5 reichen nicht aus, um Kommensurabilitat von Kommentaren 
oder Nutzerinnen herzustellen, da sie in den Augen der Expertinnen zu ver- 
zerrten Resultaten führen. Die Herstellung von Vergleichbarkeit (das zweite 
Moment der Datafizierung) überschneidet sich also mit der Ableitung pro- 
spektiver Relationen (dem dritten Moment der Datafizierung) und ist in die 
algorithmischen Verfahren der Ableitung neuer Relationen eingefaltet. 

Meine Untersuchung von Collaborative-Filtering-Empfehlungssystemen 
macht zudem deutlich, dass für die Datenerzeugung nicht nur Reziprozität 
zwischen Unternehmen und Nutzerinnen eine Rolle spielt (siehe Kapitel 6), 
sondern auch jene zwischen Nutzerinnen. Insbesondere auf Social-Media- 
Plattformen sind die datengenerierenden Verhaltensweisen kommunikative 
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Handlungen, die sich in erster Linie an andere Nutzerinnen richten und so 
den Aufenthalt auf der Plattform für andere zu einem interessanten Zeitver- 
treib macht (siehe auch Kapitel 7.1). Würde niemand etwas teilen, wäre der 
Besuch einer solchen Plattform schnell langweilig. 


platform-based companies structure reciprocityinsuch awaythatitappears 
to be directed at the collectivity of users rather than themselves: people 
»share< their news with their »friends< and acquaintances, rather than with 
Facebook; they expose their professional information for potential LinkedIn 
connections to peruse, rather than for LinkedIn itself; and their photos are 
directed at other Instagrammers, rather than Instagram. (Fourcade & Kluttz, 
2020, S. 5) 


Vor allem frühe Collaborative-Filtering-Systeme machen sich Formen der 
technisch vermittelten Sozialitat zu Nutze, um ihre Empfehlungen - bezie- 
hungsweise die Art und Weise, wie sie Nutzerinnen und Dinge relationie- 
ren — darauf zu basieren. In diesem Sinne wird (algorithmische) Sozialität 
zu einer Ressource für »good matches« zwischen Unternehmen und Nutze- 
rinnen (siehe Kapitel 10.4). 

Wie ich zeigen werde, beruht die Personalisierung von Empfehlungs- 
systemen ironischerweise gerade auf einer weitgehenden »Depersonalisie- 
rung«: Die formalisierten Verhaltensweisen und algorithmischen Relationie- 
rungen betrachten nicht das Individuum an sich: Nutzerinnen (und Dinge) 
erscheinen immer nur in Relationen zu Nutzerinnen und Dingen (Seaver, 
2012). Algorithmische Sozialität ist nicht dasselbe wie Sozialität, da sie auf 
encodierten beziehungsweise standardisierten Verhaltensweisen beruht, die 
zwar auf subjektive Sinninvestitionen verweisen, diese aber gleichzeitig auch 
ignorieren müssen. 

Die Analysen in diesem Kapitel wurden bereits in Form eines Buchkapi- 
tels und in Form eines Zeitschriftenaufsatzes veröffentlicht: »user item item 
user: - Zur Vergleichspraxis von Recommendersystemen« ist im Band »Global be- 
obachten und vergleichen: Soziologische Analysen zur Weltgesellschaft« von 
Bennani et al. (2020) erschienen (Unternährer, 2020b). Die Typologie der 
Empfehlungssysteme entwickle ich in einem Aufsatz für den Sonderband 73 
»Soziale Praktiken des Beobachtens: Vergleichen, Bewerten, Kategorisieren und Quanti- 
fizieren« der Kölner Zeitschrift für Soziologie und Sozialpsychologie (heraus- 
gegeben von Bettina Heintz und Theresa Wobbe) (Unternährer, 2021). Für 
dieses Kapitel habe ich diese beiden Aufsätze neu sortiert und zusammen- 
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gestellt. Ein Großteil des Texts ist aus diesen Artikeln direkt übernommen 
und formal nicht als Zitat ausgewiesen. 


10.1 Unpersonalisierte Popularitätsmetriken 


Leserinnen von Onlinemedien können zwischen meistgelesenen, meistkom- 
mentierten oder meistgeteilten Artikeln wählen (Die Zeit). Wer sich überlegt, 
welcher Film die geeignete Feierabendsunterhaltung sein könnte, kann aus 
einer Liste populärer oder aktuell aufstrebender (»trending«) Filme auswäh- 
len (Netflix: »Popular on Netflix«, »Trending Now«). Musikstreamingdiens- 
te wie Spotify haben zahlreiche Listen im Angebot, die der Logik von Mu- 
sikcharts folgen, zum Beispiel Today’s Top Hits, Deutsche Charts oder die 
beliebtesten Songs einer Künstlerin. Onlineshops zeigen ihren potenziellen 
Kundinnen Bestseller, angesagte Neuheiten oder Top-10-Kategorien. Bei der 
Auswahl von Restaurants oder Hotels helfen mir Seiten wie Yelp.com oder 
Booking.com, mit durchschnittlichen User-Ratings. 

Unpersonalisierte Empfehlungen scheinen im Gegensatz zur vieldisku- 
tierten Personalisierung unspektakulär zu sein, doch sind sie allgegenwärtig. 
Für Konstan und Ekstrand heißt »unpersonalisiert«, dass allen Nutzerinnen 
dieselben Dinge angezeigt werden. Alle erhalten die gleichen Empfehlungen: 
Die »aggregierten Präferenzen« der klickenden oder explizit bewertenden 
Nutzerinnen dienen als »prediction« für die Präferenzen aller Nutzerinnen. 
Diese Art der Empfehlung fußt auf der Grundannahme (oder für Konstan 
und Ekstrand der Not geschuldeten Arbeitshypothese, weil zu wenig Da- 
ten über die Nutzerinnen verfügbar sind), dass die besten oder populärsten 
Dinge für alle gleichermaßen relevant sind. Gemäß Tarleton Gillespie identi- 
fizieren Trending-Algorithmen nicht, »was spezifisch für »dich« relevant sein 
könnte«, sondern »was bei »uns< allgemein populär ist« (Gillespie, 2017, S. 
78). 

Auf Coursera beschreiben Konstan und Ekstrand verschiedene Vari- 
anten, wie unpersonalisierte Empfehlungen hergestellt und dargestellt 
werden können. Je nach »domain« - d.h. je nach Anwendungsbereich wie 
News-Webseiten, E-Commerce oder Empfehlungsportale - eignen sich 
unterschiedliche Arten der Berechnung von Popularität. Die vermeintliche 
Logik unpersonalisierter Empfehlungen ist so verlockend einfach wie irre- 
führend: Es handelt sich mitnichten darum, einfach zählen zu können, wie 
viele Nutzerinnen etwas angeklickt oder mit einem Like versehen haben. 
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Ein einfaches Beispiel vermag das zu verdeutlichen: Würde die Webseite 
einer Tageszeitung die meistgelesenen Artikel aller Zeiten auf der Startseite 
anordnen, hätte sie wohl bald keine Leserinnen mehr, da sich auf der 
Startseite kaum je etwas verändern würde. »Meistgelesen« oder ähnliche 
Ranking-Kriterien sind meistens mit einem Zeitindex versehen: z.B. am 
meisten gelesen in den letzten 24 Stunden.” Da in den meisten Fällen nicht 
absolute Popularität, sondern Informationen über zeitlich, räumlich und 
sozial begrenzte Popularität erwünscht ist, müssen Popularitätsmetriken 
festlegen, welches Zeitfenster, welche Nutzerinnen und welche Beiträge wie 
gezählt werden (Gillespie 2017 zu Twitter-Trends). 

Ekstrand bespricht das Beispiel, wie die Webseite Hacker News? ihre 
Beiträge auf der Webseite ordnet. Die Nutzerinnen der Webseite konnten 
Beiträge mit Up- und Downvotes bewerten. Die naheliegende Variante, wie 
Beiträge sortiert werden könnten, besteht darin, die Differenz von Up- und 
Downvotes als Score beziehungsweise Vergleichskriterium zu verwenden. Da 
das Ziel aber ist, »to highlight hot or new stuff« (Salihefendic, 2015), ist die 
Zeit in der Berechnung des Scores zentral. In die Berechnungsformel ist ein 
»decay factor« eingebaut, der dafür sorgt, dass der Score mit zunehmen- 
dem Alter zuerst sehr schnell und dann immer langsamer abnimmt. Das 
bedeutet auch, so Ekstrand, dass die ersten Up- und Downvotes einen höhe- 
ren Einfluss haben als spätere. Damit Artikel auf Hackernews in Bezug auf 
die Kriterien »Hotness« und »Neuheit« vergleichbar sind, reicht die Aggre- 
gation nominaler Nutzerbewertungen (i.e. +1, -1) oder die reine Sortierung 
nach dem Alter des Artikels nicht aus. Nutzerbewertungen und Alter müssen 
in einer mathematischen Formel zur Berechnung des »Hotness/Newness«- 
Scores zusammengezogen werden. Erst dann lassen sie sich in ein ordinales 
Ranking bringen, das den Ansprüchen von Hackernews genügt. 

Die Formel von Hackernews beinhaltet zusätzlich einen »penalty term«, 
»to influence the kind of community that the site owner wants to develop 
[...] to shape a little bit the kinds of things that come to the top to exert so- 
me influence over the flavor that the site has« (Coursera, 2017). So könnten 
beispielsweise der Score von Beitragen der Kategorie »Umfragen« negativ 
beeinflusst werden, da die Eigentümer der Seite nicht zu viele davon auf der 
Seite wiinschen. Auf Webseiten, die in einer anderen »Domain« operieren, 


2 Auch analoge Rankings und Bestenlisten sind mit einem Zeitindex versehen. Sie be- 
rücksichtigen normalerweise festgelegte Perioden. 
3 news.ycombinator.com 
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ist es womöglich sinnvoll, die Stimmen der Nutzerinnen unterschiedlich zu 
gewichten. Man denke an Seiten wie TripAdvisor, auf der Hoteleigentüme- 
rinnen versuchen, den eigenen Score zu erhöhen, indem sie mehrere Profile 
erzeugen, um sich selbst gute Bewertungen abzugeben. Der Einfluss solcher 
Praktiken ließe sich abschwächen, indem beispielsweise die Reputation oder 
das Alter des Profils als Gewichtungsfaktoren eingesetzt werden.* 

Während im Beispiel von Hackernews Up- und Downvotes als Grundlage 
des Vergleichs von Artikeln dienen und ein Klick als explizite und diskrete 
Handlungs- und Zähleinheit relativ eindeutig bestimmbar ist, ist bei ande- 
ren Dingen weniger klar, was gezählt werden soll. Durch Entscheidung und 
Konvention muss festgelegt werden, was zählt: Ein Song auf Spotify zählt 
als gehört, wenn die Nutzerin mindestens 30 Sekunden des Songs gestreamt 
hat (Snickars, 2016); Netflix unterscheidet gemäß The Verge zwischen »star- 
ters«,»watchers« und »completers«: »Households that watch 70 percent of a 
movie or one episode in a series are considered »watchers« (Alexander, 2019). 

Bei manchen unpersonalisierten Empfehlungen fallt auf, dass der an- 
gegebene Score nicht mit der Positionierung im Ranking übereinstimmt. 
Auf Hackernews stehen Items mit niedrigeren Punktzahlen vor höheren; 
auf Spotify steht nicht unbedingt derjenige Song mit den meisten »listens« 
an erster Stelle der populären Songs einer Künstlerin.” Die Ordnung des 
Rankings unterscheidet sich von der Ordnung der aggregierten Ratings (i.e. 
welchen Score die Dinge ausweisen). Verschiedene Ordnungslogiken können 
sich überlagern, wie die Differenz zwischen »prediction« und »recommen- 
dation« zeigt: 


we typically focus on two tasks. The first is the predict task: given a user and 
an item, what is the user’s likely preference for the item? [...] The second 
task is the recommend task: given a user, produce the best ranked list of n 
items for the user’s need. An n-item recommendation list is not guaranteed 
to contain the n items with the highest predicted preferences, as predicted 


4 Siehe zum Beispiel Pinch (2012) fiir die Anordnung von Nutzerreviews nach dem Krite- 
rium der Nutzlichkeit — bewertet durch andere Nutzerinnen. Orlikowski & Scott (2014) 
fiir das Beispiel TripAdvisor. 

5 Die populärsten Songs einer jeweiligen Künstlerin sind nicht einfach nach totalen 
Streams geordnet. Sowohl zeitliche Faktoren als auch implizite Bewertungen (bei- 
spielsweise ob Nutzerinnen einen Song in ihre individuellen Playlisten aufgenommen 
haben) dürften eine Rolle spielen (Spotify Community, 2013). 
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preference may not be the only criteria used to produce the recommendati- 
on list. (Ekstrand et al., 2011, S. 86f.) 


Die Unschärfe in der angezeigten Ordnung der Dinge verweist auf ein epis- 
temisches Problem. Popularität, Qualität oder Trends sind nicht Dinge, die 
irgendwo da draußen existieren und sich mit den richtigen Methoden beob- 
achten und messen lassen. 


Trends sind keine unabhängigen Phänomene: Anders als beispielsweise 
Abonnentenzahlen oder die Anzahl an Likes, beanspruchen sie noch nicht 
einmal, verifizierbare Fakten darzustellen. »Trends< können hunderte Be- 
deutungen annehmen oder auch gar nichts bedeuten. (Gillespie, 2017, S. 
85) 


Popularitätsmetriken werden hergestellt, indem kontingente, möglicherwei- 
se aber institutionalisierte Entscheidungen getroffen werden, was als Indi- 
kator für Popularität oder Qualität wie gezählt und verrechnet und wie für 
die Nutzerinnen aufbereitet wird. Sobald dies einmal festgelegt ist, nehmen 
die Scores als vermeintlich objektive Repräsentationen der Realität ein Ei- 
genleben an. 

Weil Twitters Bestenliste eine Aura der Objektivität und Relevanz anhaf- 
tet, ist höchst umstritten, was darin auftaucht oder nicht (Gillespie, 2012): 
Die Präsenz oder Absenz auf der Liste ist ein Politikum sondergleichen, so 
dass sich Twitter dem Vorwurf der Zensur aussetzt. Obwohl relativ opak ist 
(aber: Lotan 2011), wie Twitter die Viralität von Themen bewertet, haben so- 
ziale Bewegungen beziehungsweise Aktivistinnen Strategien entwickelt, wie 
sie ihre Anliegen zu Trends machen können (Tufekci, 2017). Zeynep Tufek- 
ci (2014, S. 10) beschreibt, wie türkische Aktivistinnen Hashtags im Vorfeld 
von Aktionen planen und in Stellung bringen, um sie von allen Followern 
zum gleichen Zeitpunkt posten zu lassen. Solche konzertierten Kampagnen 
führen »spikes« von Twitteraktivitäten herbei, die von Twitters Trending- 
Algorithmus registriert werden sollen. Hinter der Strategie der Spikes steckt 
die Annahme, dass nicht kontinuierliche, sondern plötzliche Aktivität ei- 
ner bestimmten Anzahl von Accounts zu einer Aufnahme in der Bestenliste 
führt.° 

Wer oder was »zählt«, ist immer auch eine Frage der Macht. Vermeintlich 
selbstverständliche Zählweisen werden von neuen Intermediären (Morris, 


6 Für ein Update seit Musks Übernahme von Twitter siehe Narayanan (2023). 


Markus Unternährer: Momente der Datafizierung 


2015) wie Spotify irritiert, wie das Beispiel des französischen Musikpreises 
»Victoires de la musique« zeigt: In einem Jahresbericht beklagt die Organi- 
sation, die den Preis ausrichtet, eine »surexposition du répertoire rap, hip 
hop & R&B«, die sich korrigieren werde, wenn auch ältere Musikhörerin- 
nen zu streamen beginnen. In der Zwischenzeit wird die Popularität von 
Hip-Hop nach unten korrigiert, indem nur bezahlte Musikstreams gezählt 
werden (Oliver, 2020). 

Popularitätsmetriken stellen einerseits kategoriale Relationen von ver- 
gleichbaren Einheiten und andererseits ordinale Relationen zwischen den 
verglichenen Einheiten her, die das Populärere vom weniger Populären un- 
terscheiden. Als Form der Empfehlung beziehen sich Popularitätsmetriken 
auf ein diffuses Wir, in dessen Namen und für dessen Erwägung sie Re- 
levanz, Präferenz, Qualität oder Interessantheit suggerieren. Obwohl sich 
die Popularität beziehungsweise Qualität unpersonalisierter Empfehlungs- 
systeme auf eingegrenzte Nutzergemeinschaften bezieht, wird sie oftmals 
als Ausdruck einer allgemeinen Popularität oder einer den Dingen inhären- 
ten Qualität gelesen. 


[S]ie beanspruchen, etwas über öffentliche Aufmerksamkeitjenseits der von 
der Nutzerin ausgewählten Community aus Freunden oder Followers aus- 
zusagen. Sie sagen etwas über kulturelle Relevanz aus - vielleicht implizit, 
vielleicht auch fehlerhaft - in jedem Fall sind wir angehalten, sie als solche 
zu interpretieren. Sie kristallisieren populäre Aktivitäten zu etwas Lesbarem 
und leiten es dann an uns zurück, oftmals im gleichen Moment, in dem wei- 
tere Aktivitäten stattfinden. (Gillespie, 2017, S. 85) 


Dominique Cardon (2016) identifiziert die Logik der Popularität als eine Be- 
stärkung von Konformismus und Mainstream. Seine Kritik verweist auf die 
Grundannahme der unpersonalisierten Empfehlung, dass es sinnvoll sein 
kann, die Inhalte einer Webseite nach Popularität zu ordnen, da Popula- 
rität (zumindest in Abwesenheit besserer, personalisierter Alternativen) ein 
guter Prädiktor der Präferenzen aller Nutzerinnen oder einer durchschnitt- 
lichen Nutzerin ist. Cardons Kritik des Mainstreamings ist die Kehrseite 
des Arguments, dass Personalisierung zur Fragmentierung der Öffentlichkeit 
führt, die geteilte Erfahrungen zunehmend unwahrscheinlich machen. Vor 
dem Hintergrund der Fragmentierungsdiagnose erscheinen an allgemeiner 
Popularität und inhärenter Qualität orientierte Ordnungslogiken in einem 
positiveren Licht: »Anstatt sie zu zerreißen, rufen Trending-Algorithmen 
Öffentlichkeiten eher zusammen« (Gillespie, 2017, S. 85). Unpersonalisier- 


10 Die Vielfalt der Empfehlung 


te Empfehlungen generieren keine formalen Relationen zwischen Nutzerin- 
nen, deren Aktivitäten aggregiert werden, und Nutzerinnen, denen Populari- 
tätsrankings oder aggregierten Ratings angezeigt werden. Auf der formalen 
Ebene erzeugen unpersonalisierte Empfehlungen lediglich »ordinale« Rela- 
tionen (Fourcade, 2016b) zwischen Dingen. Die Logik der Popularität erzeugt 
zwar die Suggestion eines gemeinsamen Wirs, das aber diffus im Sinn einer 
»imagined community« bleibt. 


Fallanalyse Trending: »A smarter Reddit« 


Angele (Christin, 2018) beschreibt in ihrem Artikel »Counting Clicks: Quan- 
tification and Variation in Web Journalism in the United States and France« 
wie Besucherzahlen (»traffic numbers«) von Nachrichtenseiten die journa- 
listische und redaktionelle Arbeit verändern und in den beiden nationalen 
Kontexten unterschiedlich interpretiert werden. »American and French jour- 
nalists see different things when looking at web analytics« (Christin, 2018, S. 
1410), je nach lokal vorherrschenden Rollenbildern, Professionalisierung und 
relativer Abschirmung gegenüber Marktzwängen. 

Es werden aber nicht nur Journalistinnen und Redakteurinnen mit Be- 
sucherzahlen konfrontiert. Onlinemedien offerieren ihren Leserinnen un- 
personalisierte Empfehlungen, die auf Klicks basieren: »Top Stories« (New 
York Times), »most popular« (Ihe Guardian), »meistgelesen«, »meistkom- 
mentiert«, »meistgeteilt« (Die Zeit) oder »was heute wichtig ist« (NZZ). Die- 
se Bezeichnungen suggerieren, dass »counting clicks« ausreichend wäre, um 
Artikel nach Rang zu sortieren. Die Ordnung dieser Listen ist zwar intuitiv 
verständlich, aber nur scheinbar unproblematisch. 

Ich demonstriere im Folgenden, wie voraussetzungsreich die Anordnung 
von Kommentaren auf der Internetseite Reddit ist. Reddit ist die selbster- 
nannte »front page of the internet«. Registrierte Benutzerinnen können auf 
der Seite sogenannte Posts, d.h. Geschichten, Nachrichten, Bilder, Witze, 
etc. erstellen, die von anderen Nutzerinnen bewertet und kommentiert wer- 
den. Bei jedem Post ist Benutzername, Zeitpunkt des Postings und Pfad des 
Unterforums (»subreddit«) vermerkt. Zusätzlich wird gezählt, wie viele Kom- 
mentare ein Post erhalten hat. Jeder Post erhält einen Score, der über seine 
Beliebtheit informiert. 2015 gab es gemäß Reddit 88 700 aktive Subreddits, 
in denen 8.7 Millionen User insgesamt 736 Millionen Mal kommentierten 
(Reddit, 2015). 
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Reddit ist ein lebhaftes und oftmals kontroverses Diskussionsforum: Le- 
serinnen kommentieren und bewerten Artikel und Kommentare anderer Le- 
serinnen. Hier konzentriere ich mich auf die Bewertung und Sortierung von 
Kommentaren. Diese einzelnen Kommentare erscheinen immer mit einem 
Score, der die Anzahl der »points« eines Beitrags ausweist. Die Benutzerin- 
nen können Kommentare mit einem Up- oder Downvote bewerten, indem 
sie beim Beitrag auf den Pfeil nach oben (i.e Upvote) beziehungsweise unten 
(i.e. Downvote) klicken. Die Bewertungen der Leserinnen werden verrechnet 
und je nach Resultat wird die Position des Kommentars angepasst. 

Nicht alle Klicks sind gleich: In Anlehnung an Christins Erkenntnis, 
dass Zahlen für amerikanische und französische Journalistinnen eine un- 
terschiedliche Bedeutung haben, ist für die analytische Maschinerie des 
Vergleichs eine 5 nicht immer eine 5. Am Beispiel von Reddits System 
zur Anordnung von Kommentaren zeigt sich, wie Vergleichbarmachung, 
Bewertung und Quantifizierung miteinander verwoben sind. 

2009 führte Reddit ein neues Verfahren zur Sortierung von Kommenta- 
ren ein. Das alte Top-Verfahren ordnete die Posts nach Punkten: Der Kom- 
mentar mit den meisten Punkten stand an erster Stelle. Diese Art der Anord- 
nung von Kommentaren stieß auf Einwände, da Kritiker in Frage stellten, ob 
jene Kommentare mit den meisten Punkten tatsächlich die »besten« sind. Als 
Reaktion darauf wurde das neue Best-Verfahren entwickelt: Es sortiert die 
Kommentare nach »Qualität«, so dass der »beste« Kommentar an erster Stel- 
le erscheint. Das muss nicht zwangsläufig der Kommentar mit den meisten 
Punkten sein. Das alte Verfahren zählte Klicks (i.e. Up- und Downvotes) und 
produzierte eine für die Kritiker unbefriedigende Anordnung der Kommen- 
tare. Das neue System misst die Qualität von Kommentaren und kann nun 
tatsächlich die in den Augen der Kritiker besten Kommentare priorisieren. 

Wie diese Berechnungen durchgeführt und wie Kommentare verglichen 
und angeordnet werden, ist Gegenstand der folgenden Ausführungen. Die 
empirische Analyse beruht auf Erklärungen im Coursera Kurs, auf Blogbei- 
trägen sowie auf Reddit-Diskussionen, die den Wechsel des Rankingverfah- 
rens für Kommentare begleiteten. 

Ein Artikel auf der Frontseite von Reddit hat typischerweise einige hun- 
dert bis mehrere tausend Kommentaren.” Ein unpersonalisiertes® Empfeh- 


7 2010 zählte der wohl meistkommentierte Artikel 358 000 Kommentare (Reddit, 2010). 
8 Unpersonalisiert bedeutet hier, dass diese Anordnung für alle Leserinnen gleich aus- 
sieht. 
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lungssystem soll den Leserinnen helfen, mit diesem Überfluss an Kommen- 
taren umzugehen, indem die Kommentare in einer (nicht nummerierten) 
Rangliste angeordnet werden. Die Sortierung der Kommentare ist allerdings 
keineswegs trivial. Im Gegenteil: Evan Miller? definiert in seinem Blog die 
Sortierung als zentrales Problem: 


PROBLEM: You are a web programmer. You have users. Your users rate 
stuff on your site. You want to put the highest-rated stuff at the top and 
lowest-rated at the bottom. You need some sort of »score< to sort by. (Mil- 
ler, 2009) 


Reddits einfache Lösung - das Top-Verfahren — besteht darin, die aufad- 
dierten Downvotes von den aufaddierten Upvotes abzuziehen. Die Differenz 
von Up- und Downvotes ergibt die Punkte, die ftir jeden Kommentar ausge- 
wiesen werden. Top sortiert Kommentare absteigend nach Punkten. Miller 
(2009) kritisierte diese simple Art der Sortierung mit deutlichen Worten: 


Suppose one item has 600 positive ratings and 400 negative ratings: 
60 % positive. Suppose item two has 5,500 positive ratings and 4,500 ne- 
gative ratings: 55 % positive. This algorithm puts item two (score =1000, 
but only 55 % positive) above item one (score = 200, and 60 % positive). 
WRONG. (Miller, 2009) 


Da sich die Anzahl Bewertungen in ganz unterschiedlichen Größenordnun- 
gen bewegen kann (eine Handvoll, mehrere Hundert, mehrere Tausend), 
würden sowohl einfache Werte wie die absolute Differenz als auch der relati- 
ve Anteil positiver Bewertungen falsche Resultate und eine falsche Ordnung 
produzieren. Doch weshalb ist das eine »falsche« Ordnung? 

Auch für Randall Munroe, Ingenieur, Autor des Webcomics xkcd und 
einflussreicher Redditor, ist das Top-Verfahren problematisch. Er formuliert 
das Problem spezifisch für Reddit: »When a mediocre joke gets posted in 
the first hour a story is up, it will become the top comment if it’s even 
slightly funny«, und er folgert: »The >top< list was simply a list of the best 
jokes from within the first hour« (Munroe, 2009). Top identifiziere nicht die 
besten Kommentare, sondern die frithesten. Munroe untersucht als Beispiel 


9 Miller entwickelt Statistiksoftware für Unternehmen und Wissenschaft. Der hier zi- 
tierte Blogeintrag gehört zu Courseras Lernmaterialien. 
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die Kommentare eines beliebigen, acht Stunden alten, Posts: Von den 10 Top- 
Kommentaren waren alle sieben oder acht Stunden alt, d.h. sie wurden in 
der ersten Stunde seit Erscheinen des Posts abgegeben. Beim Top-Verfahren 
kämen also oftmals nicht die besten, sondern nur mittelmäßige Kommentare 
an die Spitze des Rankings. 

Munroe ist der Auffassung, dass es einen besten Kommentar gibt. Das 
Problem besteht nur darin, ihn zu erkennen und richtig einzuordnen. Zur 
Verdeutlichung gibt er ein Beispiel. In einem Post frage jemand: »Which 
Redditor took a pic of me while I was blackout drunk at the bar this 
weekend?« (Munroe, 2009). Gemäß Munroe sollte jener Kommentar am 
besten abschneiden, der tatsächlich die Frage des Posts beantwortet. Da 
Reddit seinen Nutzerinnen beide Ordnungsverfahren anbietet, lässt sich 
direkt vergleichen, wie die beiden Verfahren Top und Best abschneiden: 
Sortiert nach Top - dem alten Verfahren - erscheint ein zusammenhangs- 
loser Kommentar an erster Stelle. Sortiert nach Best erscheint der richtige 
Kommentar, nämlich die Antwort des Fotografen - beziehungsweise das 
von ihm aufgenommene Bild des betrunkenen Redditors. 

Das Problem besteht für Munroe darin, dass beim Top-Verfahren frü- 
he gegenüber späteren Kommentaren einen Vorteil haben. Um dieses Pro- 
blem zu beheben, schlagen Miller (2009) und Munroe (2009) vor, den unte- 
ren (konservativeren) Grenzwert des Wilson-Konfidenzintervalls anzuwen- 
den. Die Vergleichbarkeit von Kommentaren mit wenigen Bewertungen und 
jenen mit vielen Bewertungen wird hergestellt, indem die momentane An- 
zahl Bewertungen als Stichprobe behandelt wird: Der Kommentar bekommt 
einen provisorischen Score, den er mit einer Sicherheit von 95 % erreichen 
wird. Kommen weitere Bewertungen hinzu, wird der Score laufend ange- 
passt (Munroe, 2009; Salihefendic, 2015). Die Vergleichbarkeit von Kommen- 
taren wird hergestellt, indem neue Kommentare mit wenigen Bewertungen 
mathematisch so behandelt werden, als hätten sie schon viele Bewertungen 
erhalten (Salihefendic, 2015). Es handelt sich um eine Vorhersage des Scores 
aufgrund des Verhältnisses von Up- und Downvotes zum Berechnungszeit- 
punkt. 

Der vorliegende empirische Fall ist instruktiv, um die Differenz zwischen 
Zählen und Messen zu beleuchten, wie sie sich in den Verfahren Top und Best 
widerspiegelt. Die Ausgangslage für beide Verfahren ist die Formalisierung 
der auf Reddit möglichen Verhaltensweisen (Kommentieren sowie Bewerten 
mit Up- oder Downvote) und die Gleichheitsunterstellung der Vergleichsein- 
heiten (i.e. Kommentare). 
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Auf Reddit sind verschiedene (Un-)Gleichheitsunterstellungen zu beob- 
achten. Kommentare und Posts werden als unvergleichbar behandelt: Auf der 
Startseite sind nur die beliebtesten und bestbewerteten Posts zu finden, ob- 
wohl auch denkbar wäre, die besten Kommentare als lesenswerte Einheiten 
zu präsentieren. 

Kommentare werden nur auf jeweils einer Ebene miteinander verglichen: 
Ein Hauptkommentar zu einem Post wird nur mit anderen Hauptkommen- 
taren zum gleichen Post in Beziehung gesetzt. Ein Kommentar zu Kommen- 
tar X nur mit anderen Kommentaren zu Kommentar X - nicht aber mit 
Kommentaren zu Kommentar Y. Die Handlungsmöglichkeiten auf Reddit 
sind durch die Benutzeroberfläche dermaßen formalisiert, dass keine Unsi- 
cherheit darüber bestehen kann, ob es sich nun um einen Hauptkommentar, 
einen Unterkommentar oder einen Post handelt. 

Um Differenzen zwischen Kommentaren einer Ebene feststellen zu kön- 
nen, lässt Reddit die Kommentare von seinen Leserinnen mit einem einfa- 
chen Ratingsystem bewerten: Leserinnen können Kommentare entweder mit 
einem Up- oder einem Downvote versehen. Sowohl Top als auch Best geben 
vor, auf der Basis dieser Bewertungen Differenzen in der Qualität von Kom- 
mentaren feststellen zu können. Sie produzieren diese Differenzen aber auf 
unterschiedliche Weise. 

Es lassen sich drei unterschiedliche Arten der Bewertung beobachten: no- 
minale, kardinale und ordinale »judgements« (Fourcade, 2016b)." Die Nut- 
zerinnen bewerten Kommentare nominal, indem sie Up- oder Downvotes 
vergeben. Das Top-Verfahren produziert kardinale Bewertungen, indem es 
Up- und Downvotes zählt. Best misst die »Qualität« von Kommentaren und 
erzeugt so eine ordinale Rangordnung. 

Up- und Downvotes sind zufällige Symbole einer binären Bewertung. Es 
spielt im Grunde keine Rolle, ob es Pfeile, Daumen oder Einsen und Nullen 


10 Reddit ignoriert diese Vergleichssperre, wenn Posts verglichen werden: Reddit zählt 
für jeden Post die Anzahl Kommentare, ohne zwischen Hauptkommentaren und Un- 
terkommentaren zu unterscheiden. 

11 Nominale Bewertungen sind an Essenzen orientiert: Sie definieren, was etwas oder je- 
mand ist. Bei kardinalen Bewertungen wird gezählt: Die Anzahl beziehungsweise die 
Akkumulation von Dingen ist ausschlaggebend. Ordinale Bewertungen erzeugen re- 
lative Positionierungen: Nicht Größenordnungen oder absolute Differenzen sind von 
Interesse, sondern die Einordnung von Dingen als besser oder schlechter als andere 
Dinge (Fourcade, 2016b, S. 176 ff.). 


179 


Markus Unternährer: Momente der Datafizierung 


sind (Heintz, 2018). Nutzerbewertungen sind »nominal judgements« (Four- 
cade, 2016b, S. 176f.), die in der Unterscheidung von Up- und Downvotes als 
diskrete und zählbare Ereignisse formalisiert sichtbar gemacht und regel- 
mäßig produziert werden.” 

Das Top-Verfahren ist ein »cardinal judgment«, das als Vergleichskriteri- 
um direkt Beobachtbares und Zählbares verwendet (Fourcade, 2016b, S. 177): 
Es zählt die Up- und Downvotes eines Kommentars und weist die Differenz 
aus, so dass jener Kommentar mit der höchsten positiven Differenz an erster 
Stelle steht. Das Vergleichskriterium, mit dem Differenz konstatiert wird, 
ist im Top-Verfahren alleine die Größenordnung von Up- und Downvotes, 
wenn auch die Benennung suggeriert, dass es sich um ein Qualitätskriteri- 
um handelt. Wie aus der Diskussion um das am besten geeignete Ranking- 
Verfahren hervorgeht, scheint das simple Zählen von Punkten aber nicht die 
erwünschten Resultate zu produzieren, da sich darin nicht die »Qualität« 
der Kommentare ausdrücke. Top als »cardinal judgment« funktioniert nicht 
als Indikator für Qualität. 

Im Gegensatz zum Punktestand ist »Qualität« nicht direkt (beziehungs- 
weise durch Zählen) beobachtbar. 


Wenn Erkenntnisgegenstände nicht physisch gegeben und direkt beob- 
achtbar sind, wachsen die kognitiven Probleme ihrer Erfassung schlag- 
artig. Wo man nicht mehr die Einheiten einer Gesamtheit zählen und 
einfache statistische Maßzahlen wie Durchschnitte, Verteilungen und 
Raten (zum Beispiel Anteil der Bevölkerung unterhalb der definierten 
Armutsgrenze) bilden kann, beginnt das Reich des Messens. (Mayntz, 
2017, S. 7) 


In der Argumentation ftir das Best-Verfahren wird in Frage gestellt, ob Top 
als Zählverfahren die gewünschte Ordnung der Kommentare produziert: Es 
kann nicht Qualität wiedergeben, sondern nur Kommentare mit den höchs- 
ten Punkteständen. Wie Munroe (2009) argumentiert, eruiere Top nicht die 
besten Kommentare, sondern die frühesten: 


12 Leserinnen können sich zwar der binären Logik von Up- und Downvote verweigern, 
indem sie beispielsweise einen schlechten Kommentar mit einer vernichtenden Ant- 
wort kommentieren. Diese Art der Bewertung »zählt« aber nicht, wenn sie auch in der 
inhaltlichen Diskussion wichtiger sein mag. 
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[Olnce a comment gets a few early upvotes, it’s moved to the top. The 
higher something is listed, the more likely it is to be read (and voted on), 
and the more votes the comment gets. It’s a feedback loop that cements 
the comment’s position, and a comment posted an hour later has little 
chance of overtaking it. (Munroe, 2009) 


Wie gesehen, plädiert er dafür, das simple Zählen des Punktestandes durch 
ein Messverfahren zu ersetzen, das diesen »time bias« und den damit ver- 
bundenen Rückkopplungseffekt in Betracht zieht. An dieser Diskussion um 
das »richtige« Verfahren lässt sich beobachten, dass Konventionen der Quan- 
tifizierung (Espeland & Stevens, 1998, 2008) und Gleichheitsunterstellungen 
kontingent und wandelbar sind. Zu Beginn galt Top - das Zählen der Punk- 
te — als zuverlässiger Indikator, um den besten Kommentar zu ermitteln. 
Um Qualität verlässlich messen zu können, führte Reddit das Messverfahren 
Best ein, um die von Munroe kritisierte quasi-kategoriale Ungleichheit von 
früheren und späteren Kommentaren mathematisch einzuebnen. Das Best- 
Verfahren stellt so im Prozess der Differenzbeobachtung selbst kategoriale 
Gleichheit her: Es wird nicht mehr die Differenz von Up- und Downvotes 
gezählt, sondern die »Qualität« von Kommentaren gemessen. Während sich 
Top als kardinales Verfahren auf absolute Größen fokussiert, ist Best als or- 
dinales Verfahren nicht an der Größe der Differenz interessiert, sondern an 
der relativen Rangordnung (Fourcade, 2016b, S. 178). Entsprechend werden 
weder ein Best-Score noch Rangziffern angezeigt: Entscheidend ist bloß die 
Anordnung. 

Das Reddit-Beispiel verweist auf die Relevanz unterschiedlicher Arten 
von Zahlenförmigkeit, die für die Operationsweise des Vergleichs maßge- 
bend sind. Es macht deutlich, wie im Falle des untersuchten Best-Verfahrens 
nicht Zahlenförmigkeit an sich einen für die Teilnehmenden sinnvollen Ver- 
gleich garantiert. Die Vergleichbarkeit von Kommentaren basiert auf der For- 
malisierung von Kommentar- und Bewertungsfunktion, welche die katego- 
riale Gleichheit der Kommentare und das Material für die Differenzbeobach- 
tung (beider Verfahren) verlässlich und regelmäßig erzeugen (siehe Kapitel 
7). 

Diese Formalisierungsleistung alleine genügt aber nicht (mehr): »coun- 
ting clicks« ist in den Augen der Entwickler nicht ausreichend. Am Beispiel 
der Entwicklung des Best-Algorithmus zeigt sich, wie Kritiker wie Munroe 
eine zu Beginn unproblematische Gleichheit von Kommentaren in Frage stel- 
len, so dass die Vergleichbarkeit durch einen Messprozess neu hergestellt 
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werden musste. Das Problem der quasi-kategorialen Ungleichheit von frü- 
hen und späten Kommentaren löste Reddit durch ein mathematisch elabo- 
riertes Messverfahren, das im Prozess selbst eine Gleichheit von frühen und 
späten Kommentaren herstellt. 


10.2 Stereotypisierung: »I’m not a 15-year-old girl« 


Die Stärke von Popularitätsmetriken liegt darin, dass sie auch dann Empfeh- 
lungen machen können, wenn über die Nutzerin nichts bekannt ist. Was 
populär ist, trifft aber womöglich nicht den Geschmack der Nutzerin, der 
Empfehlungen präsentiert werden sollen: 


Popularity as | said can be useful. If I'm looking for popular new songs, | 
might look at the top 10 chart or the top 100 chart. On the other hand that 
chart might be dominated by songs popular among high schools girls. And | 
don't know how well you can see me in these videos but I'm not a 15-year-old 
girl. (Coursera, 2017) 


Eine Lösung könne darin bestehen, »to loosely personalize if not to the indi- 
vidual then to some attributes of the individual« (Coursera, 2017). Etablierte 
Kategorien wie Geschlecht, Alter, Wohnort, Einkommen, etc. aber auch Kom- 
binationen daraus wie Lebensstile könnten als Stellvertreter für Geschmack, 
Interessen und Konsumentscheide dienen. Solche Informationen werden bei 
der Registrierung erhoben oder können von Drittanbietern erworben wer- 
den (Bivens & Haimson, 2016; Crain, 2018). Gemäß Konstan sind demografi- 
sche Daten für Empfehlungssysteme eine wertvolle Ressource, weil sie relativ 
einfach zu erheben sind und für neue Nutzerinnen - über die sonst wenig 
bekannt ist - stereotypisierende Empfehlungen generieren können. Ich be- 
zeichne solche Empfehlungen als »stereotypisierend« (statt »stereotypisch«), 
da sie auf Konvention und vermeintlichen Selbstverständlichkeiten beruhen- 
de Relationen zwischen Gruppen und Dingen herstellen. 

Die Herstellung einer stereotypisierenden Empfehlung schließt in ihrer 
Logik an Popularitätsmetriken an. Anstatt Popularität über die Gesamtpopu- 
lation von Nutzerinnen zu erheben, lässt sich mithilfe der demografischen 
Kategorien »desaggregieren«. Damit wird eine weitere Vergleichsebene ein- 
geführt. Ein einfaches Beispiel: Eine Population von Nutzerinnen und Nut- 


13 Das ist das sogenannte Kaltstart-Problem (siehe Kapitel 6). 
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zern bewertet Filme auf einer Skala von ı bis 5. Aus diesen Bewertungen 
lassen sich Durchschnittswerte für alle bewerteten Filme berechnen, um sie 
dann absteigend nach bester Bewertung zu sortieren: Es resultiert ein Ver- 
gleich oder konkret eine Bestenliste der von der Community bewerteten Fil- 
me. Da die Nutzerinnen und Nutzer bei der Registrierung ihr Geschlecht an- 
gegeben haben, lassen sich die »global averages« zudem nach den Kategorien 
»männlich« und »weiblich« aufschlüsseln, wodurch zwei weitere Bestenlisten 
entstehen: »Beliebt bei Frauen« und »Beliebt bei Männern«. 


You're selling things, and it turns out that the most popular products for wo- 
men are different from the most popular products for men. Break down tho- 
se summary Statistics, and display the relevant products on your page when 
a man or woman arrives. (Coursera, 2017) 


Die Liste »Populare Filme bei Frauen« behauptet keine allgemeine Relevanz, 
sondern bringt spezifische Nutzer-Kategorien mit spezifischen, ftir diese 
Gruppe relevanten, Dingen in eine Relation. Stereotypisierung beruht auf 
kategorialen Relationen zwischen Nutzerinnen und nutzt diese Relation, um 
Affinitäten zwischen diesen kategorialen Gruppen und Dingen festzustellen. 

Kategoriale Zugehörigkeiten dienen als Indikatoren für bestimmte Inter- 
essen und Geschmackspräferenzen der Webseitenbesucher. Diese Intuition 
schließt sowohl an sozialwissenschaftliche Erkenntnisse und Methoden als 
auch an Methoden des »mass marketing« des 20. Jahrhunderts an (Fisher & 
Mehozay, 2019). Riedl & Konstan (2002) verweisen auf historische Vorläufer 
und Abgrenzungsfolien, von denen sich Technologien der Personalisierung 
rhetorisch abgrenzen - obwohl sie nach wie vor damit verquickt sind (Prid- 
more & Hämäläinen, 2017; Bolin & Andersson Schwarz, 2015). Joseph Tur- 
ow (2003) erzählt die Geschichte der Segmentationspraktiken in der Wer- 
bebranche als eine der langen Präsenz, aber zögerlichen Anwendung: De- 
mografisches »targetting« — »Personalisierung« avant-la-lettre - war zwar 
als Technik bereits bekannt, schien jedoch in der ersten Hälfte des 20. Jahr- 
hunderts ineffizient zu sein, da Werber mit möglichst wenig Aufwand ein 
möglichst großes Publikum erreichen wollten. Targetting beginnt in den USA 
erst mit einer Ausdifferenzierung von Konsumprodukten und einer Ausdif- 
ferenzierung der Medienlandschaft Fuß zu fassen: Produzenten materiel- 
ler Güter versuchen mit leicht unterschiedlichen Varianten derselben Pro- 
dukte unterschiedliche Marktsegmente zu erreichen (Turow, 2000, S. 240f.) 
beziehungsweise ihre Produkte von generischen zu Produkten mit Wieder- 
erkennungswert - d.h. Markenprodukten - zu machen (Beniger, 1986, K. 
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8). Radiosender, Magazine und später Kabelsender richten sich an spezifi- 
sche demografische Segmente, die mit spezifischen Lebensstilen und Pro- 
duktpräferenzen in Verbindung gebracht werden (Turow 2003, K. 2, Fisher 
& Mehozay 2019). Demografisches und später Lifestyle-Targetting setzt sich 
erst durch, als sich (unter Werbeleuten) Theorien einer zunehmend frag- 
mentierten Gesellschaft verbreiten. Die kulturelle Plausibilisierung, dass un- 
terschiedliche Gruppen unterschiedlich konsumieren sowie die technischen 
Entwicklungen von Computerisierung und statistischer Methode der Konsu- 
mentenforschung waren verbunden mit einer faktischen Ausdifferenzierung 
von Öffentlichkeiten (Turow, 2003, K. 3). 

Sowohl die Publikumsforschung des »mass marketing« als auch die ste- 
reotypisierenden Empfehlungssysteme stellen Interessen und Präferenzen 
nicht nur beschreibend dar. Turows historische Aufarbeitung von Segmen- 
tationspraktiken, aber auch Konstan und Ekstrand selbst, weisen auf das 
ko-konstitutive Verhältnis von Konsumentenkategorien und Produkten hin. 
Unternehmen stellen nicht nur Produkte her, sondern, in Zusammenarbeit 
mit Marketingabteilungen und Datenbanken, auch die zugehörigen Konsu- 
mentinnen (Zwick & Denegri Knott, 2009). Konstan argumentiert anhand 
einer Anekdote, dass stereotypisierende Empfehlungen in vielen Fällen funk- 
tionieren, weil schon in der Produktion an bestimmte Zielgruppen gedacht 
wurde. 


[The recommender] worked way too well to believe that the machine lear- 
ning could simply learn your preferences in many cases. With six or seven 
preferences, it nailed people's television watching behaviors. And as they 
explored this, part of what they explained was, this is not an accident. Te- 
levision programs [...] are targeted towards particular demographics. If you 
watched back then 60 Minutes and Murder She Wrote, you were probably 
a senior citizen. If you watch certain sports programs, you have a 70% or 
80 % chance of being male. If you watch certain soap operas, you hada 70 % 
or 80 % chance of being female. [...] the reason that content was created 
to reach audiences was because advertisers were trying to reach audiences. 
And the history of mass media was advertisers driving content so that, that 
content could be used to pitch advertisements for products and generate sa- 
les. (Coursera, 2017) 


Produktkategorien erzeugen nicht nur Differenz gegen außen und Homo- 
genität gegen innen. Sie beinhalten oftmals auch relationale Komponenten 
wie die von Cynthia Cockburn und Susan Ormrod (1993, K. 4) beschriebe- 
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nen Kategorien der »white goods« - langweilige, simple Haushaltsgeräte für 
(Haus)Frauen - sowie »technische«, zur Unterhaltung gedachte, interessante 
»brown goods« für Männer. Marianne Lien schreibt in ihrer Studie zu den 
Marketingpraktiken eines norwegischen Nahrungsmittelherstellers: »there is 
a marked tendency to describe the product in terms of its consumers (and 
vice versa) thus blurring the conceptual distinction between product and 
consumer« (Lien, 2000, S. 162). 

Konstan und Ekstrand beschreiben eine Art stereotypisierender Empfeh- 
lung, die dem Paradigma der Demografie- und Marktforschung verhaftet ist. 
Demografische Kategorien werden explizit abgefragt und über Haufigkeits- 
auswertungen oder Regressionsanalyse mit spezifischen Verhaltensweisen, 
Interessen und Werten in Verbindung gebracht. Fisher und Mehozay spre- 
chen von einer »ascriptive conception of the individual: each individual could 
be assigned to a category, which could then be sociologically and cultural- 
ly characterized« (2019, S. 1181). Soziale Kategorien sind weiterhin relevant: 
Werbekundinnen von Plattformen fragen weiterhin binare Genderkategorien 
nach. Rena Bivens und Oliver Haimson (2016) konnten aufzeigen, dass auf 
der Nutzeroberflache von Facebook mittlerweile zwar aus über 50 Genderka- 
tegorien ausgewählt werden kann, diese im Hintergrund für Werbekunden 
aber wieder binarisiert werden. Sie unterscheiden drei Arten, wie Genderka- 
tegorien auf Social-Media-Plattformen zugeschrieben werden. Erstens: Nut- 
zerinnen sortieren sich selbst bei der erstmaligen Anmeldung auf der Platt- 
form in ihre präferierte Genderkategorie ein. Zweitens: Gender wird indi- 
rekt über Daten von Drittanbietern zugeschrieben, die beispielsweise über 
Emailadressen oder über die angegebenen präferierten Pronomen zugeord- 
net werden können. Drittens: Aus datafizierten Verhaltensweisen wird (bei- 
spielsweise) auf Genderkategorien rückgeschlossen, d.h. die Relation zwi- 
schen Nutzerin und Ding wird nicht mehr über stereotype Kategorisierung 
hergestellt, sondern über den Vergleich von Verhaltensweisen mit einem eta- 
blierten Muster: 


While Twitter and LinkedIn maintain genderless sign-up pages and profile 
pages, both of these platforms use user data and actions to algorithmical- 
ly infer a binary gender category to satisfy their advertising and marketing 
clients«. (Bivens & Haimson, 2016, S. 6) 


Zwischen diesen beiden Arten der Zuschreibung von Genderkategorien und 
der dritten besteht eine qualitative Differenz, die mit Fisher & Mehozay als 
algorithmisches Paradigma bezeichnet werden kann: »the rubrics in the al- 
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gorithmic episteme [...] represent not social categories, but patterns of data« 
(Fisher & Mehozay, 2019, S. 1185f.). 


Was versteht Google unter »verheiratet sein«? 

Wenn Google von einer kleinen Subpopulation weiß, dass sie verheiratet sind, 
können sie daraus ein Modell erstellen, um meine Verhaltensweisen mit die- 
sem Modell zu vergleichen. Sind meine Verhaltensweisen dem Modell genü- 
gend ähnlich, stecken sie mich ebenfalls in die Gruppe der Verheirateten und 
präsentieren mir entsprechende Werbung. 


MARITAL STATUS 


Married 


G Google estimates this demographic because your signed-in activity on Google 


services, and on other websites and similar to people who've told Google that 


they're in this category. Manage your activity 


Close Turn off 


Abb. 7: Quelle: https://adssettings. google.com (nicht öffentlich verfügbar, 
Screenshot vom 30. Oktober 2020 


Wahrend demografische Identitatskategorien oftmals essenzialistisch ge- 
dacht sind, sind Identitätskategorien als »patterns of data« formbarer und 
sozusagen agnostisch (Cheney-Lippold, 2011). Cheney-Lippold beschreibt 
solche Protokategorien als »measurable types«: 


A measurable type is a data template, a nexus of different datafied elements 
that construct a new, transcoded interpretation of the world. These templa- 
tes are most often used to assign users an identity, an algorithmic identifi- 
cation that compares streams of new data to existing datafied models. Ca- 
tegorical membership is assigned based on algorithmic fit: if one's data is 
spoken for »as if: it was produced by a »terrorist«, for example, one is seen to 
bea terrorist. And fit is subsequently based only on what data is available to 
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be measured, so membership — and identity at large - is based exclusively 
on data. (Cheney-Lippold, 2017, S. 47) 


Was versteht Facebook unter »hispanic«? 

Zwischen Facebooks und Googles Kategorien der »profitable convenience« 
(Cheney-Lippold, 2017, S. 7) und den gebräuchlichen Alltagskategorien be- 
steht eine qualitative Differenz. Alltagskategorien sind oftmals essenzialis- 
tisch oder biologistisch gedacht. Das Beispiel von Facebook macht deutlich, 
dass das bei algorithmischen Kategorien gerade nicht so ist. Ihre Kategorie 
»hispanic«isteine»als-ob«-Kategorie: Es spielt für Facebook keine Rolle, obje- 
mand »tatsächlich« lateinamerikanischer Herkunft ist— was immer das auch 
heißen soll —, solange diese Nutzerin sich so verhält als ob, d.h. solange das 
Verhalten mit dem »Modell Hispanic« übereinstimmt und solange sie auf 
Werbung und Empfehlungen reagiert, die sich an entsprechende Personen 
richten, kategorisiert Facebook die Nutzerin als »hispanic«. 


US Hispanic Affinity audiences at a glance 


Large Audience Highly engaged 


Mobile 


US Hispanic Affinity Identification 


The US Hispanic cluster is not designed to identify people who 
are ethnically Hispanic. It is based on actual users who are 
interested in or will respond well to Hispanic content, based on 
how they use Facebook and what they share on Facebook. 


Abb. 8: Quelle: https://www. facebook.com/business/a/us-hispanic-af finity-aud 
ience (mittlerweile nichtmehr abrufbay Screenshotvom 18. Januar 2019 


Techniken des Maschinellen Lernens verändern, wie traditionelle Identitäts- 
kategorien verstanden werden: Plattformen wie Google und Facebook sind 
nicht mehr darauf angewiesen, dass Nutzerinnen ihnen diese Kategorien 
selbst mitteilen. 

Der Referenzpunkt von »measurable types« ist aber nach wie vor die 
soziale Kategorie, zumindest wenn das Identitätsmodell mit Verfahren des 
»supervised learning« erstellt wurde. Demografische Kategorien werden also 
nicht gänzlich überflüssig. Sie müssen aber nicht mehr explizit nachgefragt 
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werden, sondern lassen sich aus Mustern in den Daten ableiten. Solange 
Kunden von Werbeplattformen mit stereotypisierenden Segmenten arbeiten, 
werden demografische Kategorien wohl relevant bleiben (Bivens, 2017; Bolin 
& Andersson Schwarz, 2015). 


10.3 Inhaltsbasierte Empfehlungen: User = Item? 


Stereotypische Empfehlungen verwenden demografische Variablen als Stell- 
vertreter für Interessen und Präferenzen. Die Zugehörigkeit zu verschiede- 
nen kategorialen Gruppen wie Frauen, Bisexuellen oder über 65-Jährigen 
kann ein Prädiktor für Risikoverhalten, Konsumentscheidungen oder Ein- 
stellungen sein — wie die Versicherungsstatistik, Marktforschung oder em- 
pirische Sozialforschung herausgefunden haben. 

Im Gegensatz dazu basieren inhaltsbasierte Empfehlungen nicht auf ka- 
tegorialen Zugehörigkeiten, um daraus Rückschlüsse auf etwas anderes zu 
ziehen. Bei inhaltsbasierten Empfehlungen spielt die Ähnlichkeit von Nutze- 
rinnen keine Rolle: Nutzerinnen solcher Systeme werden weder kategorialen 
Kollektiven zugeordnet noch zu einer Nachbarschaft ähnlicher Nutzerinnen 
in Relation gesetzt. Was für den einzelnen als relevant oder interessant eru- 
iert wird, basiert nicht auf einer Relationierung von Nutzern - sei es pau- 
schal wie bei Popularitätsmetriken, kategorial wie bei Segmentation oder 
über Matching wie bei User-User-Collaborative-Filtering (UUCF) -, sondern 
auf einem Vergleich von Dingen (Englisch: »items«). Dementsprechend kön- 
nen sogar dann Empfehlungen berechnet werden, wenn nur eine einzige 
Nutzerin im System ist (Jannach et al., 2011, S. 51). 

Steht bei der Segmentation die Kategorisierung der Nutzerinnen im 
Vordergrund, geht es in inhaltsbasierten Empfehlungssystemen primär um 
die Kategorisierung beziehungsweise Modellierung von Dingen. Nutzerin- 
nen werden analog zu den Dingen modelliert, um die Vergleichbarkeit von 
Dingen und Nutzerinnen herzustellen: Nutzerinnen müssen wie Dinge zu 
»Vektoren« in einem gemeinsamen Vektorraum werden: Der zuletzt gelese- 
ne Artikel, angehörte Songs oder gesehene Film wird zum Stellvertreter für 
die Nutzerin. In einem dritten Schritt wird ein Matching von neuen, aber 
bereits kategorisierten Dingen und Nutzermodellen vorgenommen, um sie 
nach Item-User-Ähnlichkeit zu sortieren. Ich will nun am Beispiel eines fik- 
tiven Recommenders von Zeitungsartikeln, den Konstan und Ekstrand in 
ihrem Kurs entwerfen, diese drei Schritte demonstrieren. 
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Die Kategorisierung der Dinge: Wie Konstan darlegt, ist die zentrale Fra- 
ge, welche Attribute von Artikeln für die Leserinnen relevant sind: Welche 
»terms« sind »descriptive of our data set [...] what we're looking for is a set 
of keywords that’s descriptive of the items, that we can map to the items, and 
that seem related to people’s preferences« (Coursera, 2017). Bei der Empfeh- 
lung von Artikeln geht es darum, Schlagworter zu finden, die beschreiben, 
um was es in einem Artikel geht. Diese Arbeit der »Indexierung« bezie- 
hungsweise der Akt des Coding (Staheli, 2016, S. 15) kann auf mehrere Arten 
vorgenommen werden. Indexierung wird traditionellerweise von Expertin- 
nen vorgenommen, wie es beispielsweise in Bibliotheken getan wird. Gerade 
wenn die Arbeit der Indexierung über eine Aufzählung technischer Eigen- 
schaften hinausgeht und qualitative, subjektive Eigenschaften von Dingen 
benennen soll, werden auch in der digitalen Okonomie Expertinnen hin- 
zugezogen (Jannach et al., 2011, S. 52)."” Typischerweise sind es aber nicht 
Expertinnen, sondern die Nutzerinnen selbst, welche die Dinge mit inhalt- 
lichen Attributen versehen - wenn auch tendenziell auf chaotische Weise 
(siehe zum Beispiel Lamere (2008) zu »music information retrieval«). Die 
Möglichkeiten des »tagging« von Items durch normale Nutzerinnen gilt als 
eine der Errungenschaften des Web 2.0 (Beer & Burrows 2007; Keshet 2011 
zu Folksonomies) durch welche die digitale Ökonomie die Arbeit von »pro- 
sumers« (Ritzer & Jurgenson 2010, technisch: Peters & Stock 2008, Lops 
et al. 2011, S. 94f.) zu Nutze machen kann (kritisch: Terranova 2000). In- 
haltsbasierte Empfehlungssysteme können Empfehlungen generieren, selbst 
wenn sie nur eine einzige Nutzerin im System haben. Bei der Frage, wie 
die Artikel (oder andere kulturelle Produkte) zu ihren Attributen kommen, 
kann eine große Nutzerbasis aber von Vorteil sein: »Content-based techni- 
ques work without a large set of users, but they need that set of item data. 


14 Auch hier bestehen Unterschiede in der Domain: Sollen Filme empfohlen werden, er- 
scheinen Schauspielerinnen womöglich als relevante Attribute von Filmen. 

15 Pandoras »music genome project« beschäftigt ein »team of trained musicologists«, die 
Musik hören und jeden Song mit bis zu 450 Attributen versehen. Netflix ließ Filmex- 
perten jeden Film mit Attributen taggen: »Using large teams of people specially trai- 
ned to watch movies, Netflix deconstructed Hollywood. They paid people to watch 
films and tag them with all kinds of metadata. This process is so sophisticated and 
precise that taggers receive a 36-page training document that teaches them how to 
rate movies on their sexually suggestive content, goriness, romance levels, and even 
narrative elements like plot conclusiveness. They capture dozens of different movie 
attributes. They even rate the moral status of characters« (Madrigal, 2014, k.S.). 
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And sometimes a large set of users helps you get that item data« (Coursera, 
2017). 

Die Repräsentation von Dingen durch eine »explicit list of features for 
each item« (Jannach et al 2011: 52) kann aber auch automatisiert werden. 
Gerade bei Nachrichtenartikeln, die schnell wieder verschwinden und vor 
allem aus Text bestehen, erscheint die automatische Indexierung von Vor- 
teil. Die zentrale Differenz zu den oben beschriebenen Kategorisierungsmo- 
di durch Expertinnen oder die Crowd besteht darin, dass die Kategorien 
(i.e. »features«, »attributes«) nicht mehr von außen kommen, sondern von 
»innen«. Im ersten Fall entscheiden Dritte, welche Kategorien ein Item be- 
schreiben. Im zweiten Fall wird der Inhalt selbst durch ein automatisiertes 
»pre-processing« in beschreibende Features transformiert.!° Die Unterschei- 
dung von Daten und Metadaten — Daten über Daten bzw. die Repräsentati- 
on von Daten in einfacherer Form (Pomerantz, 2015) — wird damit unscharf: 
»everything is metadata« (Weinberger, 2007). 

Eine wichtige Methode zur Repräsentation von Textdokumenten ist das 
Vektorraummodell (vorgeschlagen von Salton et al. 1975; Jannach et al. 2011; 
Ricci et al. 2011, siehe Kapitel 7). Dazu werden Artikel von einer analogen, 
kontinuierlichen Einheit in Form eines Narrativs oder Arguments in eine 
»digitale«, diskontinuierliche Liste von Attributen transformiert (siehe Stäh- 
eli 2016 zur Transformationsarbeit der Indexierung). Die Einheit des Arti- 
kels wird in eine Liste von Wörtern aufgebrochen, so dass ein Artikel in der 
Datenbank durch eine Liste von Attributen repräsentiert wird. Die Attribute 
sind alle Wörter, die im Korpus vorkommen (d.h. das Vokabular des Gesamt- 
korpus) — repräsentiert durch eine 1 oder eine o (oder eine Zahl, die über die 
relative Relevanz des Worts im Text Auskunft gibt), je nach dem, ob sie in ei- 
nem bestimmten Text vorkommen oder nicht. Dieser »bag of words«-Ansatz 
behandelt Wörter als Einheiten, deren semantische Beziehung zu vorher- 
gegangenen und nachfolgenden Wörtern gekappt wurde (vgl. Burrell 2016, 


16 Nicht nur Texte, sondern auch Audioinhalte können maschinell in Features transfor- 
miert werden, wie an der Differenz zwischen Pandora und Spotify exemplarisch ver- 
deutlicht werden kann: Pandora lässt Musikstücke von »musicologists« kategorisieren; 
Spotify nutzt die Software von EchoNest, die formale Charakteristiken von Musikstü- 
cken in Features übersetzt. 

17 Das zeigt sich beispielsweise daran, dass die Suchrichtung umgekehrt werden kann: 
Die klassische Suche nach einem Musikstück verfährt über Titel, Künstlerin, Al- 
bum-klassische Metadaten. Die Mobile-App Shazam (0.Ä.) »hért « (d.h. transformiert) 
einige Takte des Stückes, um daraufhin Künstlerin und Titel des Stückes auszugeben. 
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S. 7-8, 9): Ein Dokument mit dem Inhalt »Franz liebt Fritz« wird dadurch 
ununterscheidbar von »Fritz liebt Franz«. 

Nicht alle Wörter kommen als Attribute in Frage: Wörter sind nicht gleich 
Wörter. Bestimmte Wörter werden transformiert oder entfernt: Im Bereich 
des »natural language processing« spricht man von Lemmatisierung. Wör- 
ter werden auf ihre Grundform reduziert (aus Häuser, Hauses, hausen, etc. 
wird die Grundform Haus) und »stopwords« - d.h. Wörter wie »der«, »eine«, 
»und«, etc. — werden entfernt, da sie in allen Texten sehr oft vorkommen, 
aber nicht bedeutungstragend seien."? 

Sind diese Reduktionsmaßnahmen durchgeführt, ist ein Artikel durch 
die in ihm vorkommenden Lemmata definiert. Sie lassen sich nun auf ver- 
schiedene Arten relationieren, um herauszufinden, wie wichtig sie für den 
vorliegenden Artikel sind. Zwei »naive« Möglichkeiten bestünden darin, ein- 
fach zu zählen, wie oft ein Wort vorkommt, oder binär mit 1 oder o zu 
codieren, ob ein Wort vorkommt oder nicht (Coursera, 2017). Je nach Do- 
main mag es ausreichen, die binäre Option zu wählen. Bei Texten gilt die 
Annahme: Je öfter ein Wort in einem Text vorkommt, umso besser charakte- 
risiert es diesen Text. Andererseits scheint ein Wort, das im Gesamtkorpus 
verhältnismäßig selten vorkommt, für einen Text, in dem es vorkommt, um- 
so aussagekräftiger zu sein. Diese beiden Annahmen stecken in der Formel 
zur Berechnung des TF-IDF-Scores (»term frequency-inverse document fre- 
quency«). »Term frequency« zählt, wie oft ein Wort in einem Text vorkommt. 
»Inverse document frequency« ist ein Maf dafür, wie selten ein Wort im 
Gesamtkorpus ist. 


What TF-IDF does as a concept is create a profile of a document that says: 
Hey, here's an indicator for each keyword, tag or term in the document of how 
important this term is as a descriptive term for this document. This book you 
just said that you like, well it's very much about the Civil War, and a little bit 
about romance, and a lot about General Grant, and a little bit about Robert 
E. Lee. (Coursera, 2017) 


TF-IDF ist ein algorithmischer Score zur automatischen Indexierung von 
Texten. Er bewertet, welche Worter einen Text besonders auszeichnen. Ein 


18 Verschiedene Probleme, die dabei entstehen, werden hier nicht behandelt: Wörter 
oder Phrasen, die in Kombination mit anderen auftauchen oder die höhere Relevanz 
von Titeln und Überschriften. 
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Wort, das nur in einem Text vorkommt und dort gleich mehrmals, gilt dem- 
entsprechend als für diesen Text charakteristisch - möglicherweise werden 
die Wörter auch ordinalisiert und zum Beispiel nur die wichtigsten Wörter 
weiter verwendet (Jannach et al., 2011, S. 57). 

TF-IDF macht die Relevanz von Wörtern in Texten im Verhältnis zum 
Gesamtkorpus vergleichbar. Das heißt aber noch nicht, dass die Texte un- 
tereinander vergleichbar wären. Interessanterweise verhindert nicht ein qua- 
litatives Merkmal wie beispielsweise Stil, die Vergleichbarkeit, sondern ein 
quantitatives: Textlänge. Das selbe Wort taucht in langen Texten tendenziell 
öfter auf als in kurzen. Und: Ein langer Text enthält tendenziell mehr ver- 
schiedene Wörter als ein kurzer. Längere Texte haben deshalb eine höhere 
Wahrscheinlichkeit, der Leserin empfohlen zu werden (Singhal et al., 2017). 
Um »Äquivalenz« von kürzeren und längeren Texten herzustellen, wird »nor- 
malisiert«: Wörter in einem längeren Text (ein Text mit mehr Attributen) 
erhalten niedrigere Gewichtungen, die im Verhältnis zur Anzahl Attribute 
stehen: Es wird so getan, als ob jeder Text (oder jeder Vektor) gleich lang 
wäre. 

Aus der Sicht eines inhaltsbasierten Empfehlungssystems ist jedes Item 
durch einen Punkt in einem multidimensionalen Raum repräsentiert. Dieser 
Raum hat so viele Dimensionen, wie unterschiedliche Item-Attribute (hier: 
lemmatisierte Wörter) über alle Items hinweg aufsummiert vorkommen. 

Das Nutzerprofil: Inhaltsbasierte Empfehlungssysteme sind eng mit Sys- 
temen zur Informationssuche - wie Bibliothekskataloge sowie Datenbank- 
und Websuche - verwandt. Solche Systeme müssen auch dann funktionie- 
ren, wenn sie nur eine Nutzerin haben und (fast) nichts über sie wissen.” Bei 
der Suche in einem Bibliothekskatalog oder in einer Datenbank bilden die 
eingegebenen Suchbegriffe sozusagen ein kurzfristiges Nutzerprofil. Sucht 
die Nutzerin nach den Begriffen »Pferde in der Landwirtschaft« wird sie 
als Vektor repräsentiert, der ihr Suchinteresse analog zu den formalisierten 
Items im Katalog darstellt. Die Nutzerin beziehungsweise ihr kurzfristiges 
Profil wird zu einem Item, das mit anderen Items verglichen werden kann. 
Die direkte Eingabe von Suchbegriffen nach dem »information retrieval«- 
Modell ist aber nur eine Variante, wie Nutzerprofile generiert werden. In- 


19 _ Es besteht hier in mehreren Hinsichten auch eine Verwandtschaft zu Produktassozia- 
tionen (Apriori-Algorithmen bei Mackenzie 2018), die ausgehend von einem ausge- 
wählten Produkt weitere Produkte empfehlen, die »oft zusammen gekauft« wurden 
oder andere Gemeinsamkeiten aufweisen. 
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Tab. 1: Suchanfrage als Nutzerprofil 


wort-1... landwirtschaft pferd ..wort-n 


Suchanfrage1 o 1 1 o 


haltsbasierte Empfehlungssysteme können auch längerfristige Interessens- 
profile generieren, die als Filter funktionieren, um aus allen möglichen Items 
jene herauszupicken, die den breiten Interessen einer Nutzerin entsprechen. 
Die Idee eines solchen personalisierten inhaltsbasierten Empfehlungssys- 
tems popularisierte Nicholas Negroponte, Direktor am MIT, am fiktiven Bei- 
spiel des »Daily Me«, einer Zeitung mit der Auflage von 1. 


Whatif a newspaper company were willing to put its entire staff at your beck 
and call for one edition? It would mix headline news with >less important< 
stories relating to acquaintances, people you will see tomorrow, and places 
you are about to go to or have just come from. It would report on companies 
you know. In fact, under these conditions, you might be willing to pay the 
Boston Globe a lot more for ten pages than for a hundred pages, if you could 
be confident that it was delivering you the right subset of information. You 
would consume every bit (so to speak). Call it The Daily Me. (Negroponte, 
1996, S. 153) 


Die Idee koinzidierte mit der am MIT entwickelten Software Fishwrap, die 
es den Studierenden und Angestellten des MIT erméglichte, News online zu 
lesen und ihren Interessen anzupassen (Chesnais et al. 1995; aber auch ande- 
re inhaltsbasierte Recommender zu dieser Zeit, z.B. Krakatoa Chronicle).?° 
Erstmalige Nutzerinnen von Fishwrap mussten verschiedene Fragen beant- 
worten, aus denen ihr Nutzerprofil generiert wurde (Chesnais et al. 1995, S. 
275, Harper 2009). 

Statt die Nutzerinnen direkt nach ihren Interessen zu befragen, kénnen 
komplementar dazu auch explizite oder implizite Bewertungen (z.B. Ver- 
weildauer) von Artikeln Teil des Profils werden. Ein Beispiel: Eine Nutzerin 
gibt einem Artikel zu Pferden in der Landwirtschaft und einem zur Zucht 


20 Die Computerwissenschaftliche Erforschung und wirtschaftliche Anwendung von 
Empfehlungssystemen gehen Hand in Hand (vgl. Cohn 2019 zu Netperceptions, mitbe- 
gründet durch Joseph Konstan und John Riedl), wie ich auch in meiner ethnografischen 
Feldforschung in der Schweiz beobachten konnte. 
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von Pferden je einen Upvote und einem Artikel zu Traktoren in der Land- 
wirtschaft einen Downvote: »[w]e’re going to model that as a vector and that 
vector will be folded into the user's profile« (Coursera, 2017). 


Tab. 2: Item-Vektoren (ungewichtet) 


wort-1... zucht land- pferd traktor .wort-n 
wirtschaft 
item-1 o (0) 1 1 o o 
item-2 o 1 o 1 o o 
item-3 fe) fe) 1 o 1 o 


Im Referenzbeispiel verwendet Konstan »binary accumulation«, um das Nut- 
zerprofil anzupassen: Items mit positiven Bewertungen werden addiert, sol- 
che mit negativen subtrahiert. Grundsätzlich lassen sich also drei Modi un- 


Tab. 3: Nutzerprofil 


wort-1... zucht land- pferd traktor .wort-n 
wirtschaft 
user-1 o 1 o 2 -1 o 


terscheiden, wie Interessen ins Nutzerprofil kommen: Per Eingabe im Such- 
feld, per Fragebogen oder per expliziter oder impliziter Bewertung. In allen 
drei Fällen resultiert jeweils ein spezifischer Vektor oder ein »bag of words«, 
der ein formales Äquivalent der Item-Vektoren darstellt. 

Matching: Sobald Items in ihre Bestandteile zerlegt und ein kurz- oder 
langfristiges Nutzerprofil erstellt wurde, können Items und Interessen ge- 
matcht werden. Oftmals wird dazu die »cosine similarity« verwendet. Die- 
ses Ähnlichkeitsmaß beinhaltet bereits eine Normalisierung der Textlänge. 
Zwei Vektoren - hier: Item-Vektor und Profil-Vektor - werden zueinander 
ins Verhältnis gesetzt, indem der Winkel zwischen ihnen gemessen wird. Je 
kleiner der Winkel zwischen den Vektoren, desto höher die Ähnlichkeit der 
beiden Vektoren und, so die Annahme, umso höher die Ähnlichkeit zwischen 
Text und Interesse der Nutzerin. Dieses Ähnlichkeitsmaß lässt sich für jede 
Kombination von Nutzerprofil und Item berechnen, um die Items hinsicht- 
lich ihrer Ähnlichkeit zum aktiven Nutzerprofil vergleichen zu können und 
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sie in der Empfehlungsliste entsprechend zu positionieren.” Statt einer Re- 
lationierung von neuen Items und Nutzerprofil könnte auch nach den fünf 
ähnlichsten, von der Nutzerin bereits bewerteten, Items gesucht werden. 
Wurden vier von fünf Items positiv bewertet, wird das entsprechende Item 
präsentiert (Jannach et al., 2011, S. 58f.). 

Inhaltsbasierte Empfehlungen gelten als »schwach personalisiert«. 
Matchings werden über paarweise Ähnlichkeitsberechnungen hergestellt, 
die dann nach den höchsten Ähnlichkeitswerten geordnet werden können. 
Demografische Zugehörigkeiten oder User-User-Affinitaten spielen keine 
Rolle (auch wenn bei Fishwrap davon ausgegangen wird, dass sich die 
Nutzer für News ihres Heimatortes interessieren). In dieser Hinsicht ließen 
sich inhaltsbasierte Empfehlungen auch als personalisierteste aller Empfeh- 
lungen beschreiben, da sie die Nutzerin »in splendid isolation« (Vgl. Prey 
2018, hier: S. 1090) betrachten. 

Bei inhaltsbasierten Empfehlungssystemen geht es aber nur am Rand 
um Nutzerinnen. Im Zentrum steht die Katalogisierung von Dingen. Neh- 
men wir an, wir haben einen Katalog von drei Filmen: »Crazy Rich Asians«, 
»Forrest Gump« und »Matrix«. Expertinnen haben die Filme nach Roman- 
tiklevel und Schlüssigkeit des Plots bewertet. »Crazy Rich Asians« ist sehr 
romantisch und sehr schlüssig; »Matrix« und »Forrest Gump« haben beide 
einen relativ hohen Romantikwert, »Forrest Gump« ist aber einiges schlüs- 
siger. Wir haben nun eine Nutzerin, die sich den Film »Crazy Rich Asians« 
angesehen hat. Wir wollen ihr eine Empfehlung machen, welchen Film sie 
sich als nächstes anschauen soll. Dieser Film soll »Crazy Rich Asians« — das 
temporäre Nutzerprofil - möglichst ähnlich sein. 

Um der Nutzerin eine Empfehlung zu machen, matcht das System das 
Profil der Nutzerin - i.e. »Crazy Rich Asians« - mit allen zur Verfügung 
stehenden Filmen. Konkret berechnen wir, wie ähnlich sich »Crazy Rich Asi- 
ans« und »Matrix« und wie ähnlich sich »Crazy Rich Asians« und »Forrest 
Gump« sind. Die Filme lassen sich dazu in einen Vektorraum übertragen. 
Damit das Beispiel anschaulich bleibt, haben wir uns auf die zwei Dimen- 
sionen der Romantik und der Schlüssigkeit beschränkt. Bei Netflix hätten 


21 Die Anordnung der Resultate muss nicht unbedingt nach dem Kriterium der Ähnlich- 
keit geschehen. Auch hier: Die Ordnung der Prediction muss nicht der Ordnung der 
Recommendation entsprechen. Beispielsweise könnte zusätzlich nach einem Autori- 
tätsmaß (Cardon, 2016) wie dem plutokratischen PageRank (Introna, 2007, S. 19), ei- 
nem Popularitätsmaß oder einem Aktualitätsmaß gerankt werden. 
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Schlussigkeit des Plots 1 


Abb. 9: Hypothetischer Vektorraum eines inhaltsbasierten Empfehlungssystemes 


wir einen Raum mit mehreren Dutzend Dimensionen. Wenn wir die Filme 
als Punkte in einem zweidimensionalen Raum betrachten, geben wir ihnen 
eine quantitative Form, so dass sich Ähnlichkeiten berechnen lassen. Bei- 
spielsweise indem wir den Winkel zwischen den Vektoren messen oder die 
Distanz zwischen den Punkten. Dann kommen wir zum Beispiel auf Ähn- 
lichkeitsscores von 0.2 für »Crazy Rich Asians« und »Forrest Gump« und 0.8 
für »Crazy Rich Asians« und »Matrix«. Wir empfehlen also »Forrest Gump« 
als nächsten Film, weil dieser näher liegt. 

Inhaltsbasierte Empfehlungssysteme scheinen einzelne Nutzerinnen in 
Isolation zu betrachten, tatsächlich behandeln sie Nutzerinnen aber als äqui- 
valent zu Dingen. 
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10.4 Collaborative Filtering 
Algorithmische Sozialitat 


Stereotypisierende Empfehlungen brauchen kategoriale Informationen tiber 
die Nutzerinnen. Inhaltsbasierte Empfehlungen brauchen Informationen 
über die »Substanz«, i.e. den Inhalt von Dingen. Collaborative Filtering 
braucht weder das eine noch das andere. 


In Collaborative Filtering, we ignore the user and item attributes. We don't 
care what’s in the item. We don’t care who the user is. We only look at the 
interactions between users and items. And we mine patterns from these, 
such as looking at what people like you also bought. (Coursera, 2017) 


Mit »interactions« sind hier Bewertungen durch die Nutzerinnen gemeint. 
Das klassische Collaborative Filtering benötigt solche Bewertungen als 
Grundlage aller Berechnungen. Die Nutzerinnen werden entweder dazu 
aufgefordert, explizite Bewertungen abzugeben, oder aus Verhaltensdaten 
werden implizite Bewertungen abgeleitet (Seaver, 2018). Damit radikali- 
siert Collaborative Filtering das schon in der Stereotypisierung angelegte 
dualistische Verständnis von Individuen: Eine Nutzerin ist durch ihre 
Bewertungen von Dingen definiert; ein Ding durch seine Bewertungen der 
Nutzerinnen (Seaver, 2012). John Riedl und Joseph Konstan sehen in diesem 
Verzicht auf Identitätskategorien eine Chance, Empfehlungen nicht mehr 
auf diskriminierende Stereotypisierungen basieren zu müssen und grenzen 
dies explizit von Segmentationstechniken des Marketings ab: 


The problem is, simple demographics don't begin to tell the story of indivi- 
duals. People who like chess can also like football and chili contests. Peop- 
le cross taste lines all the time if they're permitted to. [...] The vestiges of 
mass marketing still hound us, however. Businesses insist on feeding the sa- 
me products and ads to people who share the same age, race, gender, and 
class. [...] If it's drilled into us that because we're young, white, middle-class 
girls we should drink Pepsi and like Britney Spears, we probably will. But it 
doesn't mean, in a world where we weren't pigeonholed, that we wouldn't 
buy something else. [...] Racial profiling and profiling your customers both 
spring from the same lazy, prejudiced philosophy. (Riedl & Konstan, 2002, 
S. 112f.) 
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Stereotypisierung beruht auf einer Relationierung von Nutzerinnen und Din- 
gen über kategoriale Zugehörigkeit. Wie aber wird eine Relation hergestellt, 
ohne sich auf Kategorien zu berufen? Collaborative Filtering eruiert »pat- 
terns of data« über zweifache Matchings - eine spezifische Variante des 
Vergleichs, die die paarweise Relationierung von Einheiten (Nutzerinnen, 
Dinge) als Vergleichskriterium verwendet: Erstens durch ein Matching der 
Nutzerinnen untereinander (user-user), um »Nachbarschaften« festzulegen; 
zweitens durch ein Matching von Nutzerinnen und Items, um Empfehlungen 
zu generieren (user-item). 

Im ersten User-User-Matching wird eine Nutzerin Alice mit allen ande- 
ren Nutzerinnen Barbara, Carla und Nora paarweise in Relation gesetzt, um 
ihre Ähnlichkeit mit anderen Nutzerinnen festzustellen. Es wird berechnet, 
wie ähnlich sich Alice und Barbara, Alice und Carla und Alice und Nora, usw. 
sind. Ähnlichkeit mit Alice wird zum relationierenden Vergleichskriterium, 
durch das Barbara, Carla und Nora verglichen und als temporäre Nachba- 
rinnen (»people like you«) von Alice »kategorisiert« und von »people unlike 
you« unterschieden werden können. Die Nachbarinnen bilden die Berech- 
nungsgrundlage für den zweiten Schritt. 

Im zweiten User-Item-Matching wird ein Item ausgewählt, das Alice 
noch nicht bewertet hat, ihre Nachbarinnen aber schon. Aufgrund der Be- 
wertungen ihrer Nachbarinnen wird eine Vorhersage errechnet, die darüber 
Auskunft gibt, wie gut Alice dieses Item bewerten wird. Diese Berechnung 
wird für alle Items, die Alice noch nicht bewertet hat, durchgeführt. Noch 
nicht bewertete Items können jetzt anhand des Kriteriums der höchsten, vor- 
hergesagten Bewertung durch Alice verglichen werden. Jenes Item mit der 
höchsten vorhergesagten Bewertung wird Alice auf der Benutzeroberfläche 
präsentiert. 

Steht Stereotypisierung exemplarisch für ein askriptives Verständnis von 
Individuen, so drückt sich im hier präsentierten Empfehlungsmodus des 
User-User-Collaborative Filtering ein algorithmisches Verständnis von Indi- 
viduen aus (vgl. Fisher & Mehozay 2019; Cheney-Lippold 2011). Im Gegensatz 
zu den relativ fixen und benennbaren Identitätskategorien, transformieren 
sich algorithmische Identitäten »from one click to the next« (Cohn, 2019, S. 
46) und tauchen gar nicht erst als benennbare Kategorien auf. Sobald Alice 
und die anderen Nutzerinnen zusätzliche Bewertungen abgeben, lassen sich 
Nachbarschaften und vorhergesagte Bewertungen neu berechnen. Nachbar- 
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schaften mögen sich durch eine relative Persistenz auszeichnen.”” Die »pat- 
terns of data« sind aber prinzipiell fluid und nicht durch Grenzen sozia- 
ler Kategorien fixiert. Alice wird bei der nächsten Empfehlungsberechnung 
möglicherweise neue Nachbarinnen dazugewinnen und andere verlieren. 

Collaborative Filtering beinhaltet nicht nur eine algorithmische Identi- 
tät, sondern vor allem auch eine algorithmische Sozialität (Vgl. Bucher 2013, 
S. 490, Alaimo & Kallinikos 2017, zu »computed sociality«). Genügt inhalts- 
basierten Empfehlungen eine einzige Nutzerin in »splendid isolation«, ist 
hier die Relationierung zu allen anderen der Ausgangspunkt einer Empfeh- 
lung. Personalisierung im Sinne einer singularisierenden Adressierung auf 
der Nutzungsoberfläche beruht ironischerweise auf algorithmischer, tech- 
nisch hergestellter Sozialität. Einer Sozialität, die in digitalen Infrastruktu- 
ren ohne das Wissen der Nutzerinnen hergestellt wird. Nutzerinnen, die nie 
miteinander in direkten Kontakt getreten sind oder jemals treten werden, 
»kooperieren« insofern, als ihre Bewertungen von Dingen zur Ressource für 
Empfehlungen für andere werden. Collaborative Filtering ermöglicht Kol- 
laboration ohne Gemeinschaft. Die Empfehlungen für Alice kommen nur 
zustande, weil andere Nutzerinnen ebenfalls Dinge bewerten. 

Matchings als spezifische Form des Vergleichs verdeutlichen, dass Nut- 
zerinnen auf der Hinterbühne des User-User-Collaborative-Filtering (UUCF) 
nur in Relationen vorkommen. Um zu sehen, was mit algorithmischer Sozia- 
lität gemeint ist - was das Kollaborative an Collaborative Filtering ist —, ist 
es erhellend, die ersten Collaborative-Filtering-Empfehlungssysteme an- 
zuschauen, die als Online-Interessensgemeinschaften konzipiert wurden. 
Eine frühe, nicht-automatisierte Variante von Collaborative Filtering war 
»Tapestry«, ein Empfehlungssystem für Dokumente. 


Collaborative filtering simply means that people collaborate to help one an- 
other perform filtering by recording their reactions to documents they read. 
Such reactions may bethat a document was particularly interesting (or par- 
ticularly uninteresting). These reactions, more generally called annotations, 
can be accessed by others’ filters. (Goldberg et al., 1992, S. 61) 


22 Die tatsächliche, positive Bewertung einer Empfehlung macht Alice möglicherweise 
ihren Nachbarinnen ähnlicher, d. h. sie erhält weiterhin Empfehlungen, die auf un- 
gefähr derselben Nachbarschaft beruhen. Das ist das Filterblasen-Argument (Pariser, 
2011). 
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Diese frühe Form des Collaborative Filtering hebt dessen soziale Kompo- 
nente hervor (Cohn, 2019, S. 72 ff.): Der Filter ist ein kollektives Produkt, das 
ermöglicht wird, indem unterschiedliche Leute mit den Dokumenten »in- 
teragieren« (i.e. Kommentare schreiben, antworten, weiterleiten, etc.). Vor- 
ausgesetzt ist, dass Nutzerinnen für andere Nutzerinnen identifizierbar und 
untereinander bereits bekannt sind: 


you know that Smith, Jones and O'Brien read all of comp.unix-wizards news- 
group material, and reply to the more interesting documents. Tapestry al- 
lows you to filteron»documents replied to by Smith, Jones, or O'Brien«. (Gold- 
berg et al., 1992, S. 62) 


Tapestry verlangte von den Nutzerinnen, explizite Filter zu definieren, in- 
dem sie sich auf bekannte und vertrauenswürde Beziehungen berufen: Es 
brauchte »human effort to establish the relationship between the people ma- 
king and the people receiving the recommendation« (Riedl & Konstan, 2002, 
S. 5f.). 

Das Musikempfehlungssystem RINGO und seine Weiterentwicklung Fi- 
refly automatisierten »word of mouth«-Empfehlungen: »instead of having to 
ask a couple friends about a few items, a social information filtering system 
can consider thousands of other people« (Shardanand & Maes, 1995, S. 211). 
Pattie Maes entwickelte RINGO zu Firefly weiter, das zu einem der ersten 
sozialen Netzwerke werden sollte. Collaborative Filtering, so Maes, habe gro- 
ßes Potenzial in »fostering community« (zitiert in: Cohn 2019, S. 74). Um das 
Potenzial auszuschöpfen, ermöglichte es Firefly über eine Chat-Funktion mit 
ähnlichen Nutzerinnen Kontakt aufzunehmen (Cohn, 2019, S. 74). In diesem 
Sinne empfahl Firefly nicht nur Musik, sondern auch ähnliche Nutzerinnen. 
Der Begriff Collaborative Filtering kommt daher, dass einige dieser frühen 
Systeme tatsächlich als Interessensgemeinschaften konzipiert waren: Nutzer 
kollaborierten miteinander, um Empfehlungen für Musik und andere Dinge 
auszutauschen - vermittelt über das Empfehlungssystem. 

Im Unterschied zu Bestenlisten, von denen ich auch dann profitieren 
kann, wenn ich selbst keine Bewertungen abgebe, ist das bei Collaborati- 
ve Filtering gerade nicht möglich. Und im Unterschied zu inhaltsbasierten 
Empfehlungen reicht es nicht aus, wenn das System über mein Profil ver- 
fügt, ohne Informationen über andere zu besitzen. Die Relationierungsme- 
thode der Stereotypisierung, die anhand kategorialer Zugehörigkeiten auf 
Präferenzen schließt, erscheint gegenüber Collaborative Filtering als diskri- 
minierend. 


10 Die Vielfalt der Empfehlung 


User-User-Matching ist eine algorithmische Form der Relationierung, die 
mich (verstanden als »interactions« mit Dingen) und andere (verstanden als 
deren »interactions« mit Dingen) in Bezug auf »Ähnlichkeit« vergleicht. Re- 
lationen zu ähnlichen Nutzerinnen dienen als Ressource für die Berechnung 
von Empfehlungen. Am Beispiel von Tapestry - das erste Empfehlungssys- 
tem, das unter der Bezeichnung Collaborative Filtering figurierte - lässt sich 
erkennen, dass diese Art der Empfehlung auf sozialen Beziehungen beruht. 
Collaborative Filtering automatisiert die Erzeugung dieser Beziehungen un- 
ter dem Motto: Wir wissen nicht, ob zwischen euch beiden eine Beziehung 
besteht. Basierenden auf euren Gewohnheiten, eurem Geschmack oder Ähn- 
lichem tun wir aber so, als ob es eine Beziehung gäbe, um daraus eine Emp- 
fehlung zu generieren. Algorithmische Relationen treten an die Stelle so- 
zialer Beziehungen. Wie Bucher für Facebook argumentiert, haben unsere 
digitalen Freundschaften Konsequenzen dafür, was uns angezeigt wird: 


the [digital] connections we forge with other people may have real conse- 
quences as the conditions of the intelligible and sensible is increasingly cal- 
culated on the basis of who our friends are, what they have done, and how 
many of them there are. (Bucher, 2013, S. 490) 


Collaborative Filtering nimmt uns sogar die Aufgabe ab, digitale »Freund- 
schaften« selbst zu artikulieren. 


Herstellung von Vergleichbarkeit 


Die personalisierte Empfehlung basiert nicht auf einem abstrakten und de- 
kontextualisierten Verstandnis von Qualitat wie in Kapitel 10.1 gesehen son- 
dern auf der Annahme, dass es sinnvoll ist, unterschiedlichen Nutzerinnen 
unterschiedliche Dinge zu empfehlen. Das System sucht auf der Basis bereits 
aufgezeichneter Verhaltensweisen wie Bewertungen - »interactions between 
users and items« — nach ähnlichen Nutzerinnen und empfiehlt mir Dinge, 
die solche ähnlichen Nutzerinnen positiv bewertet haben. Um mir ein Pro- 
dukt zu empfehlen, ist es nicht entscheidend, dass möglichst viele Nutze- 
rinnen etwas positiv bewertet haben, sondern was mir ähnliche Nutzerinnen 
mögen. Anstatt mir die Nummer eins der aktuellen Hitparade vorzuschla- 
gen, würde mir ein UUCF ein Lied vorschlagen, das Nutzerinnen positiv 
bewertet haben, die mir in Bezug auf ihre Bewertungen und ihr Hörver- 
halten ähnlich sind (zu Empfehlungssystemen im Bereich der Musik siehe 
Passoth et al. 2014; Prey 2016). 
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Ich will nun aufzeigen, wie Formalisierung, Bewertung und Vergleich 
im Prozess eines UUCF ineinander verschachtelt werden. Dabei möchte ich 
sichtbar machen, auf welche Weise verschiedene Arten der Kategorisierung 
und des Vergleichs aufeinander aufbauen (Fourcade & Healy, 2017a). Zwei- 
tens zeige ich, analog zum Beispiel von Reddit, dass und wie Vergleichbar- 
machung im Prozess der Quantifizierung stattfindet. Eine 5 ist eben nicht 
immer eine 5. Und drittens werde ich darstellen, wie UUCF von Relationen 
zwischen Nutzerinnen ausgeht, diese Relationen aber neue sortiert und an- 
geordnet werden, so dass am Ende Empfehlungen als Relationen zwischen 
Dingen präsentiert werden können. 

Joseph Konstan, Computerwissenschaftler an der Universität Minnesota, 
erklärt die Funktionsweise eines UUCF für Filme folgendermaßen: 


The story is very simple. Let’s say we want to build a recommender system for 
movies. So we have a bunch of people. They're all sitting around here, someti- 
mes those people are ina role where they’re rating movies. They're inputting 
into our system their opinion of some movie. And when we get that rating, 
we're gonna store it in a database and we're also going to compute the pairwise 
correlations between all pairs of people in our system. That correlation is a me- 
asure of agreement between people and it’s something that’s very easy to 
maintain and incrementally update as you go. Now once we have that pair- 
wise correlation table and we have the ratings we wait for somebody to ask 
for something. So somebody comes in and makes a request. They might just 
say find mea good movie, or they might say what am | gonna think about this 
particular movie. When that request comes in, the first thing we’re gonna do 
is we look at those correlations to find a good neighborhood. Who are the people 
who are most like — in their past opinions — this person who is asking the 
question? Once we have that neighborhood, we can look up those people’s 
ratings, and our collaborative filtering engine really does just three things: it 
takes these ratings and it normalizes them, it weights them by the correlations 
and then it combines them and denormalizes them back to the user’s scale«. 
(Konstan, 2012, 31'-34') 


Anhand von Konstans Erklarung greife ich nun drei Aspekte auf, die ich in 
diesem Zitat kursiv hervorgehoben habe: Wie »Leute« zu Usern werden (I), 
wie Ähnlichkeit zwischen Usern konstruiert wird (II) und wie unterschiedli- 
che Bewertungsweisen mathematisch gleich gemacht werden (III). 
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|) »have a bunch of people [...] rating movies. [...] store ratings 

in a database« 

Die Grundlage von Empfehlungssystemen sind Datenbanken, in denen Re- 
lationen zwischen Dingen und Nutzerinnen, hier: zwischen Filmen und Zu- 
schauern, erfasst werden. Es dürfte zwar jede Kinogängerin Meinungen und 
Lieblingsfilme haben: Für das Recommendersystem einer Internetplattform 
sind diese Relationen aber weder verfügbar noch beobachtbar und auch nicht 
in der Sprache der Datenbank verfasst. Nur Nutzer der Plattform lassen sich 
in den Vergleichsraum inkludieren. Damit aus einem »Haufen Leute« Nutze- 
rinnen (fortan: User) werden, müssen Personen Profile anlegen. Durch das 
Anlegen eines Benutzerprofils und das Login werden Leute zu Usern und 
damit für die Datenbank sichtbar - wenn auch ein UUCF damit alleine noch 
keine Vergleiche anstellen kann. 

Im Alltag ist eine Vielzahl verschiedenster Relationen zwischen Filmen 
und ihren Zuschauern möglich: Jemand ist ein Fan und schaut sich denselben 
Film jeden Tag an. Jemand anderes hasst den Film und schreibt vernichtende 
Blogposts darüber. Ein anderer empfiehlt den Film einer Freundin weiter. 
Im Gegensatz dazu ist für das UUCF-Empfehlungssystem nur eine dieser 
Relationen sichtbar und relevant: die formalisierte Bewertung im System. 
Beispielsweise können User auf der Webseite von Movielens.org Filme mit 
1 bis 5 Sternen bewerten. Das Verhältnis von User und Film muss über die 
Benutzeroberfläche und die dahinterliegende Datenbank auf formale Weise 
erfasst werden: »Their opinion of some movie« ist nur als Rating von 1 bis 5 
Sternen relevant, alles andere bleibt unsichtbar.” 

Auch wenn Personen durch den Akt des Logins zu »Usern« werden: Um 
personalisierte Empfehlungen zu bekommen, müssen sie erst selbst Filme 
bewerten. Ein neuer »User« - also jemand, der sich ein Benutzerkonto zu- 
gelegt hat - ist erst dann ein User (ohne Anführungszeichen) im Sinn des 
Recommendersystems, wenn »interactions between users and items« vor- 
liegen: In der Fachsprache wird dies das Kaltstart-Problem genannt (siehe: 
Schein et al. 2002, Kapitel 6). Das Problem kann durch verschiedene Strate- 
gien gelöst werden: Beispielsweise zeigt Movielens.org Popularitätsmetriken 
an, die dem »User« nicht-personalisierte Empfehlungen anzeigen (zum Bei- 
spiel Filme mit der besten durchschnittlichen Bewertung). Sobald ein User 
15 Filme bewertet hat, sind personalisierte Empfehlungen möglich. Netflix 
zeigt neuen »Usern« beim ersten Login Listen von Filmen an, die sie eventuell 


23 Zumindest in einem basalen UUCH, das nur Ratings berücksichtigt. 
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schon gesehen haben und bewerten können. Eine weitere Möglichkeit wäre 
die Verwendung traditioneller Kategorien - wie zum Beispiel auf Geschlecht 
oder Alter basierende Empfehlungen. 

Um Differenzen konstatieren zu können, müssen User insofern gleich 
sein, als dass sie eine minimale Anzahl von Items bewertet haben. Erst das 
macht sie zu Usern, die mit anderen Usern vergleichbar sind. Vorher sind 
sie nur eine leere Zeile in einer User-Item-Kreuztabelle oder ein leerer Da- 
tenbankeintrag. User_a hat in der folgenden Tabelle beispielsweise keine Be- 
wertung abgegeben und bekommt deshalb keine personalisierten Empfeh- 
lungen. User_b hat hingehen bereits einige Filme bewertet und kann zum 
Beispiel für das noch nicht bewertete item_1 eine Empfehlung erhalten (falls 
dafür genügend Bewertungen vorhanden sind). 


Tab. 4: User-Item-Ratings 


item-1 item-2 item-3 item-n 
user-a ? ? ? 
user-b ? 3 5 
user-c 1 4 5 
user-m 


Was Konstan als relativ unproblematisch voraussetzt - »have a bunch of 
people [...] rating movies« —, erweist sich als voraussetzungsreicher Formali- 
sierungsprozess: Bevor überhaupt eine Empfehlung berechnet werden kann, 
müssen also User definiert, Verhaltensweisen formalisiert und in ausreichen- 
der Menge registriert werden. 


II) »compute pairwise correlations [and] find a good neighborhood« 

Die Berechnung einer Vorhersage, wie ein user_a den Film »Wonder Woman« 
bewerten wird, basiert nicht auf den Bewertungen aller anderen User, die 
»Wonder Woman« bereits gesehen und bewertet haben. Nur User, die user_a 
genügend ähnlich sind - »people like you« bzw. »Nachbarn« - und »Wonder 
Woman« bereits bewertet haben, bilden die Grundlage der Berechnung der 
Empfehlung. Bevor die Empfehlung für »Wonder Woman« für user_a be- 
rechnet werden kann, wird festgelegt, auf der Basis welcher anderen User in 
der »Nachbarschaft« von user_a diese Berechnung durchgeführt werden soll. 


10 Die Vielfalt der Empfehlung 


Aber wie werden »ähnliche« User identifiziert und von »nicht-ähnlichen« un- 
terschieden? 

Die User wurden durch die Formalisierung ihres Bewertungsverhaltens 
bereits vereinheitlicht: Es lassen sich nur User vergleichen, deren Verhal- 
tensweisen als Bewertungen von 1 bis 5 registriert werden und die eine Min- 
destmenge an Bewertungen vorgenommen haben. Das ist die Voraussetzung 
für die folgenden Kategorisierungsprozesse, welche die Ähnlichkeit für je- 
des User-Paar messen. Darauf basierend lassen sich »ähnliche« und »nicht- 
ähnliche« User kategorial unterscheiden: Nachbarinnen, oder eben nicht. Im 
Falle eines UUCF entsteht »Ähnlichkeit« erst durch eine Kombination unter- 
schiedlicher »classificatory judgements« (Fourcade, 2016b). 

Bevor eine konkrete Empfehlung berechnet werden kann, muss in einem 
vorhergehenden Schritt der Pearson-Korrelationskoeffizient für alle User- 
paare bestimmt werden, um die hinreichend ähnlichen Nachbarn für die 
Berechnung der konkreten Empfehlung für den Film »Wonder Woman« zu 
selektieren. Dieses Ähnlichkeitsmaß soll darüber Auskunft geben, wie ähn- 
lich sich zwei User sind. Um den Pearson-Korrelationskoeffizient überhaupt 
berechnen zu können, müssen zwei User in einem weitergehenden Sinn hin- 
reichend »gleich« sein: Sie müssen nicht nur für sich eine Mindestmenge an 
Bewertungen abgegeben haben. Es braucht auch Überschneidungen der be- 
werteten Filme. Mindestens zwei gleiche Filme müssen sowohl von user_a 
als auch von user_b bewertet sein (auch wenn die Filme nicht gleich bewer- 
tet sein müssen). Haben sie keine Filme gemeinsam, kann nichts berechnet 
werden. Bei nur einer Überschneidung resultiert eine o beziehungsweise 
keine Ähnlichkeit von user_a und user_b; bei zwei gemeinsamen Filmen re- 
sultiert eine 1, d.h. eine sehr hohe Ähnlichkeit von user_a und user_b. Der 
hohe Ähnlichkeitswert bei nur zwei von beiden bewerteten Filmen kann aber 
trügerisch sein, wenn beide User noch viele weitere, aber je unterschiedliche 
Filme bewertet haben (Ekstrand, 2013).74 

Für jedes Userpaar wird nun periodisch — zum Beispiel jede Woche - der 
Pearson-Korrelationskoeffizient berechnet. Es resultiert eine Kreuztabelle al- 
ler User-User-Kombinationen, die für jede User-User-Kombination den Ähn- 
lichkeitswert ausweist. Ein hoher Wert steht für eine große Übereinstim- 


24 Wenn zwei User viele individuelle Bewertungen abgegeben haben, aber nur weni- 
ge Filme von beiden bewertet wurden, kann eine Signifikanzgewichtung angewendet 
werden, welche die Ähnlichkeit abschwächt, bis eine Mindestmenge an paarweisen 
Bewertungen erreicht ist (Herlocker et al., 1999). 
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Tab. 5: User-User-Ähnlichkeit 


user-a user-b user-c user-m 
user-a 1 
user-b 0.7 1 
user-c 0.2 01 1 
user-m 1 


mung der Bewertungsweisen bzw. Präferenzen der zwei in Relation gesetz- 
ten User. 

Nachbarn zu selektieren heißt, aufgrund der für alle User-Kombinationen 
errechneten Ähnlichkeitswerte ein »nominal judgement« (Fourcade, 2016b) 
darüber vorzunehmen, wer die »people like you« (im Unterschied zu »people 
unlike you«) sind. Das heißt, der Ähnlichkeitswert wird als Vergleichskrite- 
rium verwendet, um genügend ähnliche Nachbarinnen auszuwählen. Diese 
ausgewählte Nachbarschaft dient als Basis für die Berechnung einer kon- 
kreten Empfehlung für einen von user_a noch nicht bewerteten Film. Dabei 
bestehen drei grundsätzliche Möglichkeiten, Nachbarschaften zu definieren: 
Alle User als Nachbarn definieren, einen Grenzwert der Ähnlichkeit festlegen 
oder eine begrenzte Zahl der ähnlichsten Nachbarn auswählen. 

Wenn sehr viel Rechenkapazität zur Verfügung steht - oder die Daten- 
bank nicht zu viele User oder Items beinhaltet - liegt die naheliegende Mög- 
lichkeit darin, alle User als Nachbarschaft zur Berechnung einer Filmemp- 
fehlung zu verwenden. Angesichts der Menge an Usern und Items ist diese 
Möglichkeit aber in vielen Fällen schon technisch ausgeschlossen: »Commer- 
cial collaborative filtering systems are beginning to handle millions of users, 
making considerations of every neighbor infeasible. The system must select 
the best neighbors, discarding the remaining users« (Herlocker et al., 1999, 
S. 234). Die schiere Menge möglicher Berechnungen ohne eingeschränkte 
Nachbarschaften ist ein Problem der Rechenkapazität, wie Konstan verdeut- 
licht: »All the pairwise correlations is m squared times n. You think about 
that and m is 100 million users, and n is a million items. Ew. That’s 10’000 
trillion or 10 quadrillion. Yuck. That's a lot of computation« (Coursera, 2017). 
Zudem könne die Verwendung aller User als Nachbarschaft dazu führen, 
dass die höher korrelierten Nachbarinnen im »noise« der tiefer korrelierten 
untergehen würden. 
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Es gibt zwei weitere Möglichkeiten, um Nachbarschaften auszuwählen, 
die »people like you« von »people unlike you« unterscheiden: Grenzwerte der 
Ähnlichkeit sowie Festlegen der Nachbarschaftsgröße (Herlocker et al., 1999). 
Wird ein Grenzwert von beispielsweise 0.5 festgelegt, sind für user_a jene 
User Nachbarn, deren Ähnlichkeitswerte höher liegen. Beim sogenannten 
Top-N-Verfahren entscheiden sich die Entwickler im Voraus für eine optima- 
le Nachbarschaftsgröße: Entscheiden sie sich beispielsweise für Top-30, wer- 
den für user_a alle anderen User nach ihren Ähnlichkeitswerten mit user_a 
geordnet und die dreissig mit den höchsten Werten als Nachbarn ausge- 
wählt, um daraus Empfehlungen zu berechnen. Die Wahl zwischen einem 
Grenzwert und Top-N ist ein Zielkonflikt: »If you have a minimum similari- 
ty, you may not get very many neighbors. If you limit the size, you may not 
have very good similarity« (C2W1-02A). 

User_a unterscheidet sich von anderen Usern durch die spezifische Kom- 
bination der ihr ähnlichsten anderen User. Die Nachbarn von user_a sind mit 
aller Wahrscheinlichkeit nicht dieselben wie jene von user_b, obschon user_a 
möglicherweise Teil der Nachbarschaft von user_b ist und umgekehrt. Wäh- 
rend im ersten Schritt User als »user-item-interactions« erfasst wurden (1.), 
sind sie nun über ihre User-User-Relationen, d.h. über ihre Nachbarschaften 
definiert. 


Ill) »normalize ratings« 

Im dritten Schritt wird das Problem adressiert, dass nicht alle User die Be- 
wertungsskala auf die gleiche Weise verwenden. User_a ist schnell begeistert 
und vergibt meist gute Bewertungen. User_b ist sehr kritisch und vergibt nur 
selten gute Bewertungen. Um nun Ähnlichkeiten festzustellen, werden die 
Bewertungsweisen »normalisiert«: 


When | talk about normalization and denormalization, it’s a compensati- 
on for the fact that people have different levels of positivity or enthusiasm. 
What we learn when we run these systems is that [for] some people [...] 
everything is a four or five, you know. A four means it was okay and a five 
means | loved it. There are other people who've never actually gotten to the 
number five. Most things are twos and there are a few threes and a couple 
of fours, and a two means it’s okay, and a three means, okay | guess | might 
spend money on it, and a four means this is wonderful but I’ve never seen 
anything better than that. And if you don’t make your adjustment it’s really 
hard to match somebody who thinks everything is wonderful with somebo- 
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dy who ehm is the other side: | think everything is pretty miserable. But if 
you normalize you can usually match those people ifthey at least agree that 
the most wonderful things are about the same. (Konstan, 2012, 33/34’) 


Die »interactions between [user_a] and items« und die »interactions between 
[user_b] and items« liegen zwar in einer gemeinsamen Metrik vor, dennoch 
ist eine 5 von user_a nicht mit einer 5 von user_b gleichzusetzen, wie das 
konstruierte Beispiel in der Tabelle 3 zeigt. Beide haben item_4 mit einer 
5 bewertet. Das heißt aber nicht, dass sie sich in ihrem Urteil einig sind. 
Um die spezifischen Bewertungsweisen miteinander vergleichen zu können, 
wird für jeden User der Mittelwert all seiner Bewertungen berechnet und 
von den ursprünglichen Bewertungen abgezogen. Erst dann wird die »rich- 
tige« Differenz von user_a und user_b sichtbar. Obwohl beide auf den ersten 
Blick die gleiche Bewertung vergeben haben, ist die normalisierte Bewertung 
unterschiedlich: Zwischen den normalisierten Bewertungen von user_a und 
user_b für item_4, das sie beide mit einer 5 bewertet haben, besteht nun eine 
Differenz von 1,5. 


Tab. 6: Nicht normalisierte Bewertungen 


user-a user-b 
item-1 5 3 
item-2 4 2 
item-3 4 2 
item-4 5 5 
Mittelwert 4.5 3 


Die Bemessung der Ähnlichkeit zweier User beruht darauf, die vorlie- 
genden Bewertungen eines Items zum Durchschnitt aller Bewertungen ei- 
nes Users in Beziehung zu setzen. Die Vergleichbarkeit der User gilt erst 
dann als gegeben, wenn einkalkuliert wird, wie User die Ratingskalen nut- 
zen. Auch wenn numerische Daten vorliegen, werden diese Daten mathe- 
matisch behandelt, um die Vergleichbarkeit von Usern zu gewährleisten. 
»Commensuration« (Espeland & Stevens, 1998, 2008) ist nicht ein Prozess, 
der abgeschlossen ist, sobald ein Sachverhalt in numerischer Form vorliegt. 
Im vorliegenden Fall heißt das, dass ich erst einmal nur meine eigenen Film- 
bewertungen vergleichen kann - und auch nur dann, wenn man davon aus- 
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Tab. 7: Normalisierte Bewertungen 


user-a user-b 
item-1 0.5 o 
item-2 -0.5 -1 
item-3 -0.5 -1 
item-4 0.5 2 
Mittelwert o o 


geht, dass mein Bewertungsverhalten und Geschmack zeitlich stabil sind. 
Um die Ratings eines Users mit den Ratings anderer User vergleichen zu 
können, muss die Differenz der Bewertungsweisen miteinbezogen und ma- 
thematisch auf eine gemeinsame Ebene gebracht werden. Erst dann gelten 
Ratings verschiedener User als kommensurabel. 

Das Ziel des Empfehlungssystems besteht darin, einem user _c eine oder 
mehrere Empfehlungen von Filmen zu präsentieren. Die Erzeugung von 
Empfehlungen umfasst mehrere Schritte der Vergleichbarkeitsherstellung 
und des Vergleichs. Wir haben mit einer voraussetzungsreichen Tabelle be- 
gonnen, die User und Items über Bewertungen zueinander in Beziehung 
setzt. Um überhaupt in potenziell bedeutungsvoller Weise in dieser Tabelle 
aufzutauchen, müssen »User« zu Usern werden, indem sie Items bewerten. 
Erst dann können User miteinander verglichen werden.” User_c muss al- 
so eine Mindestmenge an Filmen bewerten, die auch andere User bewertet 
haben. 

Besteht eine genügend große Überschneidung von user_c und anderen 
Usern, kann die Ähnlichkeit dieser User berechnet werden. Es resultiert eine 
Kreuztabelle aller möglichen User-User-Relationen. Für jeden User können 
nun genügend ähnliche User ausgewählt werden, die als Basis zur Berech- 
nung von Empfehlungen dienen sollen. Für user_c wird nun eine bestimmte 
Menge an Nachbarn ausgewählt, die entweder einen bestimmten Schwellen- 
wert der Ähnlichkeit überschreiten oder, zum Beispiel, die dreissig höchsten 
Ähnlichkeitswerte aufweisen. 


25 Das gilt auch für die umgekehrte Perspektive: Ein »ltem« ist erst dann ein mit anderen 
vergleichbares Item, wenn es von Usern bewertet wurde. 
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Obwohl die User des Systems alle die gleiche Bewertungsskala verwen- 
den müssen, sind ihre Bewertungen noch nicht mit den Bewertungen ande- 
rer User kommensurabel. Verschiedene User gelten erst dann als vergleich- 
bar, wenn ihre Bewertungsweisen mathematisch normalisiert, das heißt ih- 
re Differenzen — »different levels of positivity and enthusiasm« (Konstan, 
2012) — eingeebnet sind. 

Um nun vorherzusagen, wie user_c noch nicht bewertete Items bewerten 
wird, werden die Bewertungen aller Nachbarn von user_c normalisiert und 
miteinander verrechnet. Dabei erhalten die einzelnen Nachbarn einen nach 
ihrer Korrelation gewichteten Einfluss. Für jedes noch nicht bewertete Item 
wird diese Berechnung durchgeführt, woraus eine Liste vorhergesagter Be- 
wertungen resultiert, die sich nach der Höhe des Scores sortieren lässt. Das 
Empfehlungssystem präsentiert den Film mit dem höchsten Score. 

Alle hier beschriebenen Prozesse werden in Sekundenschnelle im Verbor- 
genen abgewickelt, sobald sie in laufende Systeme implementiert sind. Was 
die Endanwenderin sieht, das heißt, wie ihre Welt am Bildschirm geordnet 
ist, ist das Endprodukt einer verdichtenden Relationierung von Nutzerin- 
nen und Dingen. Was sichtbar wird, ist kaum als Vergleich zu erkennen, 
insbesondere wenn es sich bloß um die Präsentation einzelner Items han- 
delt. Der mehrdimensionale Vergleichsprozess, der User und Items, User 
und User sowie Bewertungsverhältnisse von Usern und Items zueinander in 
Relation setzt, wird im letzten Schritt zu einem Vergleich von Items. Dabei 
werden die Relationen zwischen verschiedenen, immer auch wechselnden 
Benutzerkollektiven unsichtbar gemacht: Die Beziehungen zwischen Usern 
werden zu Beziehungen zwischen Dingen. 

Präsentiert wird dieser Vergleich aber als Ausdruck meiner Persönlich- 
keit: In der Sprache der Anbieter heißt es dann zum Beispiel »Playlists ex- 
tra für dich« (Spotify) oder »Top Picks for Markus« (Netflix). Der Prozess 
der Empfehlung führt raffinierte Gleichheitskonstruktionen durch, damit ich 
als User mit anderen Usern verglichen werden kann, verdeckt aber gleich- 
zeitig seine Vergleichsoperationen und die daraus entstehenden User-User- 
Relationen, um meine Einzigartigkeit als Person hervorzuheben.”° 

Diese Umkehrung ist bezeichnend für ein spezifisches Verständnis 
von Publikum (Fisher & Mehozay, 2019; Passoth et al., 2014), das man 


26 Andere Beschreibungen, die auf User-User-Relationen aufmerksam machen, sind 
möglich, wie das Beispiel von Amazon deutlich macht: »Kunden, die diesen Artikel 
gekauft haben, kauften auch«. 
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sich nicht mehr notwendigerweise in demografischen Termini von Alter, 
Wohnort oder Geschlecht vorstellen muss. Entscheidend für die Gruppie- 
rung von Usern sind Gemeinsamkeiten und Differenzen der beobachteten 
und quantifizierten Verhaltensweisen. User beziehungsweise Usergrup- 
pen können durch die (kulturellen) Produkte definiert werden, die sie 
konsumieren. Produkte können durch die User definiert werden, von de- 
nen sie konsumiert werden. Seaver bringt es auf den Punkt: »users are 
known as a collection of relations to items and items are known as a 
collection of relations to users«, oder zugespitzter: »pizzas in terms of 
people and people in terms of pizza« (Seaver, 2012, k.S.). Dies trifft zwar 
zu, doch ist die Relation User-Item (»people«-»pizza«) nur der Ausgangs- 
punkt eines Collaborative-Filtering-Recommendersystems. Wie ich zeigen 
konnte, durchläuft ein UUCF-Empfehlungsdienst für Filme im Zuge sei- 
ner eingebetteten (mathematischen) Vergleichbarkeitskonstruktionen und 
Differenzbeobachtungen eine Reihe anderer Relationierungen: User-Item, 
User-User, User/Item-User/Item, Item-Item. 

Inhaltsbasierte Empfehlungssysteme und Collaborative Filtering bewer- 
ten und vergleichen nicht Nutzerinnen oder Dinge, sondern Relationen zwi- 
schen Nutzerinnen und Nutzerinnen und Relationen zwischen Nutzerinnen 
und Dingen. Solche »matchings« - eine spezifische Variante der Relationie- 
rung - relationieren die Nutzerinnen paarweise zu allen anderen Nutze- 
rinnen. Es sind diese Relationen zwischen den Nutzerinnen (oder zwischen 
Nutzerinnen und Dingen), die im Zentrum von Empfehlungssystemen ste- 
hen. 

Die Analyse verschiedener Typen von Empfehlungssystemen zeigt eines 
deutlich: Empfehlungssysteme bewerten keine Nutzerinnen. Im Gegensatz 
zu Loyalty-Marketing (Turow, 2008) oder Credit-Scoring (Fourcade & Healy, 
2017b) geht es nicht darum, jene Kundinnen mit dem höchsten Wert für das 
Unternehmen ausfindig zu machen, um sie zu belohnen - oder gar Kundin- 
nen mit niedrigem Wert von Leistungen auszuschließen. Netflix, Amazon, 
Facebook, etc. zeigen allen ihren Nutzerinnen Empfehlungen. Wer die Platt- 
form stärker nutzt, mag »passendere« Empfehlungen erhalten, doch werden 
keine Nutzerinnen davon ausgeschlossen. Neue Nutzerinnen erhalten mög- 
licherweise nur unpersonalisierte oder stereotypisierende Empfehlungen. Es 
ist aber kaum vorstellbar, einer Nutzerin gar nichts anzuzeigen, wenn sie auf 
der Seite erscheint. 

Die Bedeutung der Personalisierung liegt nur vordergründig in einer Be- 
rücksichtigung des Individuums. Personalisiert wird mit formalen, für alle 
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gleichen Mitteln der Relationierung. Nutzerinnen sind in diesen Empfeh- 
lungssystemen relational gedacht und haben keine »ontologische Dignität« 
(Heintz, 2021). Sie treten in Relation zu Dingen in Erscheinung - was sie an- 
klicken, anschauen, kaufen (durch Encoding) - und in Relation zu anderen 
Nutzerinnen (durch algorithmische Relationierung). Digitale Personalisie- 
rung operiert über De-Personalisierung, d.h. einer mit den formalen Mitteln 
des Encoding und des algorithmischen Vergleichs erzeugten Verdichtung von 
Relationen von Nutzerin, anderen Nutzerinnen und Dingen.”’ 


27 Das heißt auch, dass die kategorialen Grenzen des Vergleichs tendenziell wegfallen. 
Besser gesagt: Sie werden durch proto-kategoriale Grenzen ersetzt, d.h. die in die Soft- 
ware eingelassenen prä-kategorialen Formalisierungsprozesse entscheiden darüber, 
welche Nutzerinnen zueinander in Relation gesetzt werden können — zum Beispiel 
Nutzerinnen die eine Mindestmenge an Items bewertet haben und nicht: Nutzerin- 
nen, die einer gemeinsamen Kategorie wie Geschlecht angehören. 
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Momente der Datafizierung können sich über mehrere Monate erstrecken, 
wie das Beispiel von Earlybirds Datenexperiment zeigt. Sie können aber auch 
in Bruchteilen von Sekunden stattfinden, wenn die Datafizierungsinfrastru- 
kur erst einmal funktioniert und Nutzerinnen diese »nutzen«: Empfehlungs- 
systeme verkörpern die drei Momente aus maschineller Sicht zwar hinterein- 
ander, aus der Position der Nutzerinnen aber mehr oder weniger gleichzei- 
tig. Ein Klick führt zum nächsten. Wenn die Nutzerin auf eine Empfehlung 
eingeht, erscheint potenziell die nächste, die aufgrund neuer Informationen 
errechnet wurde. 

Mit dem Konzept der Momente der Datafizierung habe ich versucht, die 
blitzschnell stattfindenden Austausch-, Kommensurabilisierungs- und Re- 
lationierungsprozesse analytisch auseinanderzuziehen, um die konstituti- 
ven Elemente des »algorithmischen Feuerwerks« (Tolentino, 2019) sichtbar 
zu machen, welches für die Ordnungsweise eines großen Teils der digita- 
len Welt verantwortlich ist. Die In-Wert-Setzung digitaler Verhaltensweisen 
durch Prozesse der Datafizierung ist um einiges komplexer als die Vorstel- 
lung einer säuberlichen Trennung verschiedener Phasen von Sammlung, Be- 
arbeitung und Verwertung von Daten suggeriert. Um Datafizierung in ihrer 
Widersprüchlichkeit zu zeigen, verwendete ich als Sensibilisierungskonzept 
Anna Tsings Arbeit zur Warenkette der Matsutakepilze. Dabei werden Gleich- 
zeitigkeiten, ökonomische Heterogenität und Relationen sichtbar. Sodann 
nahm ich auf soziologisch vertrautere Konzepte aus der Quantifizierungs-, 
Kategorisierungs-, Bewertungs- und Vergleichssoziologie sowie der Markt- 
soziologie Bezug, um die Vielschichtigkeit der Datafizierung auszuleuchten. 


Gleichzeitigkeiten 


Im Moment des Klicks (oder einer anderen Verhaltensweise der Nutzerin) 
konvergieren in jedem Moment der Datafizierung je zwei Gegensätzlich- 
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keiten bzw. Gleichzeitigkeiten: Der Klick ist ein Austausch von Geschenk 
und Gegengeschenk, eine individuell bedeutsame Handlung auf der Seite 
der Nutzerin und generischer Datenpunkt in der Datenbank, Resultat der 
Verwicklung von Nutzerinnen und Unternehmen und Generator zukünftiger 
Verwicklungen. 

Die drei Momente eignen sich als analytisches Instrument, um verschie- 
dene Phasen der Datenerzeugung und der In-Wert-Setzung von Daten be- 
obachten zu können: Das erste Moment macht darauf aufmerksam, dass 
Daten nicht ohne Weiteres gegeben sind - auch wenn die Techgiganten ver- 
meintlich schon immer über uns Bescheid wissen. Ich argumentiere, dass 
Daten erst aus Verwicklungen von Unternehmen und Nutzerinnen entste- 
hen. Die analytische Perspektive auf Datendeals als Gabentausch soll die Da- 
tenökonomie nicht als romantischen Ort der desinteressierten Reziprozität 
verharmlosen, sondern den Fokus verlagern: auf die aktive Gestaltung von 
Relationen zwischen Nutzerinnen und Unternehmen mithilfe von Geschen- 
ken und Daten, auf die Suggestion von Verpflichtungen sowie die Organisa- 
tion der Datenerzeugung als Geschenk, das erwidert werden muss, sobald es 
angenommen wird. Für weitere Untersuchungen stellt sich daran anschlie- 
ßend die Frage, mit welchen Maßnahmen der »data solicitation« Plattfor- 
men und andere digitale Unternehmen ihre Nutzerinnen zu datengenerie- 
renden Verhaltensweisen motivieren und wie sie dadurch die Beziehungen 
zu den Nutzerinnen, aber auch zwischen den Nutzerinnen, rekonfigurieren 
und wie (bzw. ob) reziproke Verpflichtungen eingegangen oder suggeriert 
werden. Gleichzeitig lässt sich auch fragen, wie Nutzerinnen diesen Daten- 
deal wahrnehmen oder sich diesem womöglich mit subversiven Strategien 
zu entziehen versuchen. Dies wurde in diesem Buch zwar angedeutet, aber 
nicht eingehend behandelt. 

Am Schnittpunkt des ersten und zweiten Moments zeigt sich eine Gleich- 
zeitigkeit und Gegensätzlichkeit der Datenerzeugung: Der Austausch von 
Daten gegen Dienstleistung ist nicht als ökonomischer beziehungsweise ver- 
traglicher Tausch organisiert, sondern als Gabentausch. Unternehmen stel- 
len zum Beispiel Kommunikationsinfrastrukturen zur Verfügung, die Nut- 
zerinnen frei nutzen können. Durch diesen Gebrauch entsteht gleichzeitig 
die »missing commodity« der Personendaten. Die Nutzung solcher Angebote 
konstituiert bereits das Gegengeschenk. Diese Gleichzeitigkeit beruht auf ei- 
ner Enodierung möglicher Verhaltensweisen beziehungsweise einer Forma- 
lisierung von Objekten und möglichen »actions«, welche diese Objekte bei 
Ausführung der »actions« in Relation setzen. Diese »grammars of action« 


11 Fazit 


sind zwar weitgehend standardisiert, sollen den Nutzerinnen aber gleich- 
zeitig »echte«, d.h. für die Nutzerinnen selbst bedeutsame, Verhaltensweisen 
ermöglichen. 

Das zweite Moment macht auf eine falsche Selbstverständlichkeit der 
Digitalisierung aufmerksam: Nur weil Verhaltensweisen in digitalen Räu- 
men stattfinden, heißt das nicht, dass sich damit ohne Weiteres rechnen 
lässt - wie sich ja auch nicht mit allen Zahlen (z.B. Hausnummern) rech- 
nen lässt. Das Rechnen mit digitalen Verhaltensweisen ist äußerst voraus- 
setzungvoll, wie ich anhand der Enodierung und Formalisierung (zum Bei- 
spiel durch Vektorisierung) von Verhaltensweisen und digitalen Objekten 
(wie Nutzerinnen, Dingen, Posts, etc.) zeige. In der Bearbeitung von Per- 
sonendaten wird deutlich, dass die Sinninvestitionen und Eigenheiten der 
Nutzerinnen weitgehend ignoriert und weggearbeitet werden müssen, um 
Daten zu wertvollen, weiter verarbeitbaren, Ressourcen zu machen. 

Zwischen dem zweiten und dritten Moment kommt es ebenfalls zu Über- 
lappungen: Die Kommensurabilisierung digitaler Verhaltensweisen ist ten- 
denziell unabgeschlossen und in die algorithmischen Vergleichsverfahren 
selbst eingefaltet. Gerade die Vektorisierung ist an diesem Schnittpunkt zu 
verorten, da sie die Vergleichbarkeit qualitativ singulärer Texte erlaubt, in- 
dem es diese quantitativ in einem gemeinsamen Vektorraum repräsentiert. 
Andererseits verkörpert die Vektorisierung auch die relationierende Logik 
des dritten Moments, da es verschiedene Datensätze und Einheiten, zwi- 
schen denen bis anhin kein direkter Bezug bestand, zueinander in Beziehung 
setzt. 

Die Transformation von Verhaltensweisen in kommensurable »data sets« 
eröffnet neue Anwendungsmöglichkeiten: Es lassen sich nun neue Relationen 
aus den Daten ableiten. Das ist das dritte Moment der Datafizierung. Dazu 
müssen Personendaten zu anderen Daten in Beziehung gesetzt werden: Das 
einzelne Nutzerprofil ist an sich wertlos. Erst durch die Verknüpfung mit 
anderen Nutzerprofilen oder durch die Einfaltung zusätzlicher Datensätze 
lässt es sich in Wert setzen. Am Beispiel von Earlybirds Datenexperiment 
haben wir gesehen, dass die Wettbewerbsantworten und Lifestyle-Segmente 
in einem von Wikipedia — als Datensatz verstanden, der aus Artikeln und 
Wörtern besteht - aufgespannten Vektorraum verortet werden, um Ähnlich- 
keiten eruieren zu können. An verschiedenen Typen von Empfehlungssys- 
temen habe ich gezeigt, wie Nutzerinnen und Dinge auf unterschiedliche 
Weisen »relationiert« werden können, um neue, prospektive Relationen zwi- 
schen Nutzerinnen und Dingen zu eruieren. 
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Ökonomische Heterogenität 


Der Wert von Daten basiert in ihrem Lebenszyklus auf verschiedenen Wert- 
regimes, die sich mit den Idealtypen von Gabe und Ware approximieren 
lassen. Im Wertregime der Gabe sind es die Beziehungen, die Wert begrün- 
den und möglicherweise ökonomische Anschlusshandlungen motivieren. Im 
Wertregime der Ware kommt Wert über Vergleichbarkeit und Standardisie- 
rung zustande - wodurch es erst möglich wird, Nutzerinnen oder andere 
Einheiten formal zueinander in Beziehung zu setzen. Datafizierung chan- 
giert zwischen diesen beiden Wertregimes, indem Relationen zwischen Un- 
ternehmen, Nutzerinnen, Dingen und Dritten motiviert und rekonfiguriert 
werden. Die Spuren dieser Beziehungen werden aber auch immer wieder 
weggearbeitet, damit gerechnet und (ironischerweise) neue, prospektive Re- 
lationen abgeleitet werden können. Die Datenökonomie ist auf diese Hete- 
rogenität angewiesen, um Daten als wertvolle Ressourcen zu produzieren. 
Eine Ergänzung der Momente der Datafizierung wäre eine stärkere 
marktsoziologische Fokussierung auf die Frage, wie Plattformen spezifische 
Märkte und die Beziehungen zwischen unterschiedlichen Marktakteuren 
neu organisieren (Plantin et al., 2017; Gillespie, 2010; Helmond, 2015; 
Kornberger et al., 2017; Kirchner & Beyer, 2016). Dabei könnte es um die 
Fragen gehen, wie Daten zu einer handelbaren Ware werden, wie mithilfe 
von Daten Nachfrage und Angebot gematcht werden oder wie in »digitalen 
Ökosystemen« (wie beispielsweise für »digital payments«) über Daten und 
ihre Zirkulation die Beziehungen neuer und etablierter Akteure rekonfigu- 
riert werden. Marion Fourcade und Daniel Kluttz (2020) haben angeregt, 
Daten als Geschenk zu begreifen, welches die Entstehung von Märkten 
begünstigt: Gerade bei Plattformmodellen, die von Netzwerkeffekten ab- 
hängig sind, kann es sich lohnen den Nutzerinnen (d.h. der preissensitiven 
Seite) freie und attraktive Leistungen umsonst zur Verfügung zu stellen, 
so dass unter sogenannten »data sharing agreements« Drittparteien wie 
Entwicklern Zugang zu diesen Nutzerinnen und ihren Daten offeriert 
werden kann. Die zusätzliche Funktionalität, welche die Entwicklerinnen 
der Plattform hinzufügen, machen im Gegenzug die Plattform für die 
Nutzerinnen attraktiver (auf Facebook zum Beispiel Quiz oder Spiele wie 
Farmville). Die Entwicklung von Plattformen als »multi-sided markets« 
basiert auf einer »generalisierten Reziprozität« (Bearman, 1997), in welcher 
Reziprozität nicht nur direkt, sondern auch indirekt ausgeübt wird. Das 
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heißt, nicht nur zwischen Plattform und Nutzerinnen, sondern in einer 
kreisförmigen Reziprozität, in der Plattformen ihre Nutzerinnen und deren 
Daten an die API-Entwicklerinnen weiterreichen und die Entwicklerinnen 
sich bei den Nutzerinnen erkenntlich zeigen (Fourcade & Kluttz, 2020, S. 
9). Insbesondere die aktuelle Entwicklung im Bereich »digital payment« 
dürfte sich als fruchtbares Forschungsfeld für die Untersuchung solcher 
»data-sharing agreements« und generalisierter Reziprozität erweisen. 


Relationen 


Die theoretische Figur der Momente der Datafizierung fokussiert auf Rela- 
tionen, d.h. auf die Gestaltung der sozialen und ökonomischen Beziehungen 
zwischen Unternehmen und Nutzerinnen, die Verhaltensweisen in Datafi- 
zierungsinfrastrukturen motivieren, auf die formalen Datenrelationen, die 
daraus entstehen und auf die neuen, prospektiven Relationen, die daraus ab- 
geleitet werden. In der Datenökonomie sind Personendaten sowohl Resultat 
als auch Anstifter sozialer oder ökonomischer Beziehungen. Unternehmen 
bemühen sich, diese Relationen stets zu erneuern. Ihre Geschäftsmodelle be- 
ruhen darauf, »good matches« zu erzeugen, welche die ökonomischen Bezie- 
hungen erhalten - sei es zwischen dem Unternehmen und den Nutzerinnen 
wie bei Streamingportalen, zwischen den Nutzerinnen und Werbekundin- 
nen wie bei Werbeplattformen oder zwischen Angebot und Nachfrage (siehe 
Langley & Leyshon 2017 zu verschiedenen Plattformtypen und ihren Funk- 
tionen als Intermediäre, auch: Srnicek 2017). 

Das relationale Konzept der »good matches« betont, dass Empfehlungs- 
systeme nicht Nutzerinnen bewerten, wie es beispielsweise Credit-Scores 
tun, sondern die Relationen von Nutzerinnen und Dingen. Es geht nicht dar- 
um - wie beispielsweise in einer Variante des »customer relationship marke- 
ting« -, die besten Kundinnen mit weiteren Angeboten und Vergünstigungen 
zu belohnen und die schlechten Kundinnen fernzuhalten. Die Empfehlung 
ist insofern demokratisch? Alle erhalten Empfehlungen - auch wenn dieje- 
nigen, die mehr Daten hinterlassen, möglicherweise bessere Empfehlungen 
erhalten. 


1 Das ist möglich, weil Empfehlungssysteme die Marketingfunktion automatisieren 
(siehe Hwang 2020 zu »programmatic advertising«). 
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Dieses Buch zeigt auch, dass die Rede von »Personalisierung« und die 
individuelle Adressierung der Nutzerinnen auf der Benutzeroberfläche trü- 
gerisch ist: Nicht die Nutzerinnen stehen im Rampenlicht, sondern ihre Re- 
lationen zu anderen Nutzerinnen, zu Dingen und zu Unternehmen. Ins- 
besondere die Empfehlungsweise des Collaborative Filterings verdeutlicht, 
dass Nutzerinnen nur in Relationen zu Dingen oder zu anderen Nutze- 
rinnen und in deren abgeleiteten Passungsverhältnissen zu Dingen auftau- 
chen. In diesem Sinn sind »personalisierte« Empfehlungen nicht das Re- 
sultat einer vereinzelnden Berücksichtigung des Individuums, sondern von 
de-individualisierenden algorithmischen Vergleichen. 

Mit dem Konzept der »good matches« will ich darauf aufmerksam ma- 
chen, dass der Punkt der personalisierten Empfehlung nicht die individuali- 
sierende Ansprache auf der Benutzeroberfläche ist, sondern die Evozierung 
einer »persönlichen« Beziehung zwischen Nutzerinnen und Unternehmen mit 
de-personalisierenden, unpersönlichen Verfahren. Das datenbasierte Aufru- 
fen einer gemeinsamen Vorgeschichte und die Suggestion wechselseitiger 
Verpflichtungen, die sich aus dem Austausch digitaler Geschenke und Daten 
ergeben, tragen möglicherweise zu einer Re-Personalisierung der als un- 
persönlich theorisierten Ökonomie bei. Keith Harts (2001; 2005) Arbeiten zu 
einer anthropologischen Theorie des Geldes sind inspirierend: Seine Konzep- 
tion von »money as token« - bzw. die durch digitale Technologien ermög- 
lichte Re-Virtualisierung von Geld - macht darauf aufmerksam, dass Geld 
nie nur Zahlungsmittel, sondern immer auch ein Zeichen für soziale Bezie- 
hungen ist. Die soziale Funktion von Geld als soziale »memory bank« bzw. 
als Datenbank, wer wem was schuldet, und die aus Beziehungen generier- 
ten und beziehungsgenerierenden Personendaten beginnen sich so gesehen 
zu überlappen. Personendaten entstehen aus und stehen für vergangene Be- 
ziehungen zwischen Nutzerinnen, Dingen, Unternehmen und Dritten und 
tragen via »good matches« zu einer profitablen Verlängerung und Vertie- 
fung dieser Beziehungen in der Zukunft bei.” Das ist zumindest die Sicht 
der Unternehmen, die Personendaten zur Gestaltung und Konfiguration von 
Beziehungen zu ihren Nutzerinnen und zu ihren Kundinnen einsetzen. Ob 
die Nutzerinnen das auch so sehen, ist eine andere Frage. 

Die Perspektive der Momente der Datafizierung ließe sich durch einen 
Fokus auf die »Arbeit« der Nutzerinnen und ihre Wahrnehmung des Da- 


2 Ob das tatsächlich zu einer humaneren Ökonomie führt, wie Keith Hart hofft, ist an- 
zuzweifeln. 
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tendeals gewinnbringend ergänzen. Ein stärkerer Fokus auf die Nutzerin- 
nen und ihre Wahrnehmung des Austauschs von Daten gegen Geschenke in 
der Form kostenlos zur Verfügung stehender Dienste oder personalisierter 
Empfehlungen, könnte eine wichtige Ergänzung liefern: Wie nehmen sie die 
Beziehung zu den Unternehmen und den Datendeals wahr? Welche Stra- 
tegien verfolgen sie, um ihre Privatsphäre zu regulieren,’ Einfluss auf die 
Gestaltung ihrer Feeds zu nehmen oder für sich das Beste aus einer tenden- 
ziell asymmetrischen Beziehungen herauszuholen? Zu unterscheiden wären 
dabei verschiedene Kategorien von Nutzerinnen wie beispielsweise Influen- 
cerinnen oder »content creator«, die ihre Relation zu den algorithmischen 
Empfehlungssystemen und ihre Position in der Datenökonomie aller Wahr- 
scheinlichkeit nach anders auffassen als »einfache« Nutzerinnen (siehe z.B. 
Bishop 2019).* 

In den Kapiteln 7 und 10.4 spreche ich zwar an, dass die Sozialität von 
Nutzerinnen zu einer Ressource für Datafizierung und Empfehlungssysteme 
wird (siehe aus der Perspektive der Unternehmen: Riedl & Konstan 2002). Ei- 
ne mit meinem relationalen Verständnis von Datafizierung kompatible Per- 
spektive liefern Ekbia & Nardi (2017): Unter dem Begriff der »heteromation« 
verstehen sie eine Kombination menschlicher und maschineller Fähigkeiten, 
die für andere Wert generieren. Heteromation setzt dabei auf eine Logik der 
Inklusion und des aktiven »engagement«: 


[H]eteromation succeeds by sneaking in on little cat feet, insinuating itself 
everywhere in computer-mediated networks through nearly imperceptible, 
dispersed, delicate methods of incitement. Heteromation extracts value th- 
rough billions of tiny moments of labor in networks, rather than blatantly, 
visibly ripping away resources for capital as is typical of accumulation by dis- 
possession. (Ekbia & Nardi, 2017) 


3 danah boyd (2014) beschreibt die Strategien von Jugendlichen, um die Privatsphare 
ihrer öffentlich einsehbaren Profile auf Social-Media-Plattformen zu regulieren. Den 
Jugendlichen geht es dabei vor allem darum, ihre Privatsphäre vor den neugierigen 
und taktlosen Blicken von Eltern, Lehrerinnen oder anderen Erwachsenen zu schützen. 
Welche Strategien gibt es gegenüber Unternehmen außer Resignation (Turow et al., 
2015), totaler Kommodifizierung (Lanier, 2014) oder dem totalen digitalen Rückzug 
(Lanier, 2018)? 

4 Siehe Eszter Hargittai und Alice Marwick (2016) zum »privacy paradox«, d.h. zur Frage, 
weshalb Nutzerinnen trotz weitgehender Kenntnis und Missbilligung der Datenprak- 
tiken von Social-Media-Unternehmen weiterhin deren Dienste nutzen. 
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Gerade im Fall von Social Media und anderen nützlichen und im Alltag hilf- 
reichen Apps setzt die Produktion wertvoller Personendaten auf »small but 
pleasing rewards, relying on opportunities that we choose to accept that per- 
mit us to get through our days more easily, and often to feel better about 
ourselves« (Ekbia & Nardi, 2017). Für Facebook und andere ist das Soziale in 
»social media« ein Produktionsfaktor: Die vielfältigen Aktivitäten der Nutze- 
rinnen motivieren weitere Aktivitäten anderer Nutzerinnen. Wenn das nicht 
funktioniert, greift Facebook selbst ein, indem es beispielsweise »Highlights« 
vergangener Aktivitäten im Feed positioniert. Diese unzähligen Erinnerun- 
gen, Anfragen oder Pop-ups lassen sich als Hinweis auf soziale Verpflichtun- 
gen verstehen, denen die Nutzerinnen nachzukommen haben, wenn sie »in 
the loop« bleiben wollen. 

Im Idealfall funktionieren Momente der Datafizierung zirkulär. Ist das 
Kaltstart-Problem einmal überwunden, werden aus Personendaten mehr Da- 
ten produziert: Aus datengenerierenden Verhaltensweisen werden verhal- 
tensgenerierende Daten. Empfehlungssysteme verkörpern diese Zirkularität: 
Sie leiten Empfehlungen aus bestehenden Daten ab. Wenn diese Empfeh- 
lungen funktionieren, entstehen mehr Daten, die für weitere Empfehlungen 
genutzt werden können, welche die Nutzerin im Feedback-Loop halten. Die 
Frage danach, ob Nutzerinnen von solchen Systemen »korrekt« erfasst wer- 
den, nimmt dabei eine spezifische Wendung. Wie ich in Bezug auf Mai (2016) 
argumentiert habe, ist die Logik von Empfehlungssystemen nicht daran aus- 
gerichtet, Daten als Repräsentationen der Nutzerinnen oder Wissen über 
die Nutzerinnen zu generieren: Das primäre Interesse richtet sich nicht auf 
»Korrektheit« - d.h. darauf, korrekt zu repräsentieren, wer jemand ist —, son- 
dern darauf, zu funktionieren, d.h. »engagement« aufrecht zu erhalten (Sea- 
ver, 2018). Im Vergleich der Empfehlungssysteme verdeutlicht sich, dass tra- 
ditionelle Kategorien tendenziell unwichtiger werden. Sie bilden nicht mehr 
den Ausgangspunkt der Beobachtung von Nutzerinnen, können aber - falls 
überhaupt noch benötigt - aus Verhaltensweisen und dem Vergleich mit Mo- 
dellen abgeleitet werden (siehe das Beispiel von Earlybird in Kapitel 8). Die 
Voraussetzung dafür ist aber die weitgehende Formalisierung (ex post oder 
ex ante) aller Verhaltensweisen der Nutzerinnen, oder anders gesagt: die Um- 
stellung von demografischen Daten auf Transaktions- und Verhaltensdaten. 
Demografische Kategorien werden nicht irrelevant, doch verändert sich de- 
ren Konstituierung: Anstatt von kategorialen Zugehörigkeiten auf Interessen 
oder ähnliches zu schließen, wird von manifestem Verhalten und Verhaltens- 
regelmäßigkeiten auf kategoriale Zugehörigkeiten geschlossen. Als kausal 
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wirksam gilt nicht mehr die kategoriale Zugehörigkeit, sondern das »tat- 
sächliche« (wenn auch encodierte) Verhalten (Heintz, 2021). Algorithmische 
»Kategorien« sind agnostisch: Es spielt keine Rolle, ob jemand »tatsächlich« 
männlich, 36 Jahre und verheiratet ist, solange diese Person sich online so 
verhält (Cheney-Lippold, 2017). 

Die Frage nach der »Korrektheit« - im Sinne von: korrekt ist, was funk- 
tioniert - von Empfehlungssystemen erschien mir in diesem Buch nicht zen- 
tral, habe ich doch den Fokus auf die Relationen zwischen den verschiede- 
nen, an der Datafizierung beteiligten Einheiten gelegt. Dabei argumentierte 
ich, dass Unternehmen der digitalen Ökonomie versuchen, diese Relationen 
im Sinne von »good matches« zu ihrem Vorteil, aber auch - zumindest aus 
der Sicht der Unternehmen - zum Vorteil der Nutzerinnen zu gestalten. Die 
Argumentation in diesem Buch beruht aber auf einer folgenschweren und 
unhinterfragten Prämisse, die den Kern des Wertversprechens der Daten- 
ökonomie betrifft: Die Annahme, dass Empfehlung und insbesondere »Per- 
sonalisierung« überhaupt funktioniert. 

Den drei Momenten wäre ein viertes Moment beizufügen, welches die 
Evaluation von Empfehlungssystemen betrifft. In der Praxis werden Empfeh- 
lungssysteme ständig evaluiert und optimiert. Verschiedene Varianten von 
Empfehlungssystemen und solche mit unterschiedlichen Parametern kon- 
kurrieren um die Klicks der Nutzerinnen und werden in Bezug auf ihre Fä- 
higkeit, Klicks zu generieren, verglichen. Wie erfolgreich sie sind und an was 
Erfolg gemessen wird (zum Beispiel am relativen Misserfolg konkurrierender 
Empfehlungssysteme), sind Fragen für weitere Untersuchungen. 

Die soziologische Auseinandersetzung mit Datafizierung und Algorith- 
men sollte den Behauptungen digitaler Unternehmen kritisch begegnen, da 
wir diesen Unternehmen sonst den Gefallen tun, ihre Macht durch eigene 
Mythen zu bestätigen. Empfehlung und Personalisierung mögen zwar funk- 
tionieren. So gut funktionieren sie möglicherweise aber auch wieder nicht. 
Die erste digitale Bannerwerbung von 1994 wurde von sagenhaften 44% der 
Nutzerinnen angeklickt. 2018 war die durchschnittliche »click-through-rate« 
der über Google geschalteten Bannerwerbungen 0.46 Prozent (Hwang, 2020). 
In Anbetracht dessen, dass Google oftmals unterstellt wird, mehr über uns zu 
wissen, als wir selbst, erscheint dieses Resultat eher mäßig. Gleichzeitig ist 
aber zu berücksichtigen, dass auch marginale Verbesserungen ins Gewicht 
fallen - insbesondere wenn ein Unternehmen über sehr viele Nutzerinnen 
verfügt oder Differenzmargen klein sind (wie beispielsweise bei Wahlen). 
Auf Facebook sieht es nicht besser aus. In den Worten von Cory Docto- 
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row, Schriftsteller und aufmerksamer Beobachter der Datenökonomie: »sur- 
veillance capitalism’s margins on behavioral modification suck« (2020). Die 
Hoffnungen, welche Unternehmen in die Technologie der Personalisierung 
stecken, ist möglicherweise größer als ihr tatsächlicher Erfolg. Die soziolo- 
gische Untersuchung von Datenökonomie, Datafizierung und Algorithmen 
muss sich deshalb in Acht nehmen und ihre Relevanz nicht (nur) in der Mani- 
pulation der Nutzerinnen begründen, sondern in der Art und Weise, wie sie 
soziale und ökonomische Relationen neu konfigurieren, um datengenerie- 
rende Verhaltensweisen und (möglicherweise) verhaltensgenerierende Daten 
zu erzeugen. 
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